In [61]:
import re
import pandas as pd
import csv
import numpy as np
from nltk.tokenize import RegexpTokenizer
from nltk.stem import SnowballStemmer
import nltk
import spacy
from collections import Counter
from statistics import mean
from sqlalchemy import create_engine
import sqlite3
import psycopg2
import io
#nlp = spacy.load('de_core_news_sm')
snowStemmer = SnowballStemmer(language='german')
RAW_DATA_PATH = 'data/raw/'

Helper Functions

In [62]:
def flatten(l):
    return [item for sublist in l for item in sublist]

In [63]:
def find_longest_word(word_list):
    longest_word =  max(word_list, key=len)
    return len(longest_word)

def lemmatize_string(input_text):
    doc = nlp(input_text.lower())
    result = ' '.join([x.lemma_ for x in doc])
    doc = nlp(result.title())
    result = ' '.join([x.lemma_ for x in doc]).upper()
    return result

In [64]:
def stemm_List_of_Words(input_text):
    result = [snowStemmer.stem(word).upper() for word in input_text]
    return result

In [65]:
def contains_song(ID, JAHR, MONAT):
    return  len(df.loc[(df['ID'] == ID) & (df['JAHR'] == JAHR) & (df['MONAT'] == MONAT)]) >= 1

In [98]:
def isSeasonal():
    for index, row in df.iterrows():
        if row['IS_SEASONAL'] is False:
            df.loc[(df['ID'] == row['ID']), 'IS_SEASONAL'] = bool(contains_song(row['ID'], row['JAHR'] + 1, row['MONAT']))

In [67]:
def getAnteil(word_list, text_len):
    l = [round(word_list.count(word)/text_len, 4) for word in word_list]
    return mean(l)

In [68]:
def get_nr_Sublist(l, s):
    nr = 0
    empty_sublist = False
    if s == []:
        empty_sublist = True
    if not empty_sublist:
        for i in range(len(l)):
            if l[i] == s[0]:
                n = 1
                while (n < len(s)) and i+n < len(l) and (l[i+n] == s[n]):
                    n += 1
                if n == len(s):
                    nr+=1
    return nr

Data Extraction

In [69]:
engine = create_engine('postgresql://OutsideUser:Xpr9XyDwx3ZfJyq2BNaW@92.205.167.58:8787/text_analytics')

df = pd.read_sql_query("SELECT * from lied join chart_position cp on cast(lied.id as integer) = cp.lied_id where sprache_deutsch = 'Ja' and position <= 50", con=engine)
df.rename(columns={'id': 'ID', 'interpret':'INTERPRET', 'titel':'TITEL', 'sprache_deutsch': 'SPRACHE_DEUTSCH', 'text_teil1':'TEXT_TEIL1', 'text_teil2':'TEXT_TEIL2', 'text_teil3':'TEXT_TEIL3', 'text_teil4':'TEXT_TEIL4', 'text_teil1_ori':'TEXT_TEIL1_ORI', 'text_teil2_ori':'TEXT_TEIL2_ORI', 'text_teil3_ori':'TEXT_TEIL3_ORI', 'text_teil4_ori':'TEXT_TEIL4_ORI', 'datum_von':'DATUM_VON', 'datum_bis':'DATUM_BIS', 'lied_id':'LIED_ID','position':'POSITION'}, inplace=True)
df.drop('LIED_ID', axis=1, inplace=True)
df['ID'] = df['ID'].astype('int')
df.sort_values(by='ID', inplace=True, ascending=True)

#get stopword-list
with open(RAW_DATA_PATH+'Stoppwords.csv', newline='', encoding='UTF-8') as f:
    stopwords_list = list(csv.reader(f))
stopwords_list = [word.upper() for word in flatten(stopwords_list)]

In [70]:
df.columns

Index(['ID', 'INTERPRET', 'TITEL', 'SPRACHE_DEUTSCH', 'TEXT_TEIL1',
       'TEXT_TEIL2', 'TEXT_TEIL3', 'TEXT_TEIL4', 'TEXT_TEIL1_ORI',
       'TEXT_TEIL2_ORI', 'TEXT_TEIL3_ORI', 'TEXT_TEIL4_ORI', 'DATUM_VON',
       'DATUM_BIS', 'POSITION'],
      dtype='object')

In [71]:
df.TEXT_TEIL1[0]

'LASS UNS ZUM STRAND DU WEISST WELCHEN ICH MEIN ICH BRAUCH MAL WIEDER MEER UND SAND  YEAH BRAUCH MAL WIEDERGRUND ZU BLEIBEN  AI DEINE UHR FAELLT INS BLAU WIR SEHEN  WIE DIE ZEIT VERSINKT WIR SETZTEN LANGSAM AUF DAS WASSER SPIEGELGLATT UND BLINKT  WIR WOLLEN DIE SEHNSUCHT NACH MORGEN  WEIL ES HEUTE PERFEKT IS SEHNSUCHT NACH MORGEN  WEIL ES HEUTE PERFEKT IS DU STEHST NEBEN MIR  ZEIGST MIR  DASS ES ECHT IST DIE LICHTER MEINER STADT SIND VERBRANNT LASS UNS ZUM STRAND    KOMM WIR STEIGEN AUS DU LEUCHTEST WIE AUS DIAMANT  YEHE MIT ALL DEM SALZ AUF DER HAUT  AI ICH SEH DICH GESTOCHEN SCHARF ES TUT FAST DEN AUGEN WEH UND ENDLICH BIST DU DA SO HABE ICH DICH NOCH NIE GESEHEN  YEHI  WIR WOLLEN DIE SEHNSUCHT NACH MORGEN  WEIL ES HEUTE PERFEKT IS SEHNSUCHT NACH MORGEN  WEIL ES HEUTE PERFEKT IS DU STEHST NEBEN MIR  ZEIGST MIR  DASS ES ECHT IST DIE LICHTER MEINER STADT SIND VERBRANNT LASS UNS ZUM STRAND   LASS UNS ZUM STRAND DU WEISST WELCHEN ICH MEIN LASS UNS ZUM STRAND  YEAH ICH BRAUCHGRUND ZU BLEI

Data Conversion

In [72]:
df['TEXT'] = df['TEXT_TEIL1'].fillna('') + df['TEXT_TEIL2'].fillna('') + df['TEXT_TEIL3'].fillna('') + df['TEXT_TEIL4'].fillna('')

df['DATUM_VON'] = pd.to_datetime(df['DATUM_VON'])
df['DATUM_BIS'] = pd.to_datetime(df['DATUM_BIS'])
df['DAUER'] = (df['DATUM_BIS'] - df['DATUM_VON']).dt.days.astype('int16')
df['JAHR'] = df['DATUM_BIS'].dt.year.astype('int16')
df['MONAT'] =  df['DATUM_BIS'].dt.month.astype('int16')

Text Preprocessing

In [73]:
df['processed_TEXT'] = df['TEXT']

#lemmatization
#df_Lied['processed_TEXT'] = df_Lied.processed_TEXT.apply(lambda text: lemmatize_string(text))

# tokenize
df['processed_TEXT'] = df.processed_TEXT.apply(lambda text: nltk.word_tokenize(text))

#Stemming
df['processed_TEXT'] = df.processed_TEXT.apply(lambda text: stemm_List_of_Words(text))

#remove stopwords
df['processed_TEXT'] = df.processed_TEXT.apply(lambda x: [item for item in x if item not in stopwords_list])

#remove numbers
df['processed_TEXT'] = df.processed_TEXT.apply(lambda word_list : [re.sub('\w*\d\w*','NUM', word) for word in word_list])

In [74]:
df.head()

Unnamed: 0,ID,INTERPRET,TITEL,SPRACHE_DEUTSCH,TEXT_TEIL1,TEXT_TEIL2,TEXT_TEIL3,TEXT_TEIL4,TEXT_TEIL1_ORI,TEXT_TEIL2_ORI,TEXT_TEIL3_ORI,TEXT_TEIL4_ORI,DATUM_VON,DATUM_BIS,POSITION,TEXT,DAUER,JAHR,MONAT,processed_TEXT
7416,408,Rumpelstilz,Kiosk,Ja,ALSO ER SAMMLE FUER EINEN GUTEN ZWECK SAGT DE...,,,,Also\ner Sammle Für 'nen Guten Zweck.\nsagt De...,,,,1977-06-27,1977-07-03,46,ALSO ER SAMMLE FUER EINEN GUTEN ZWECK SAGT DE...,6,1977,7,"[ALSO, SAMML, FUER, GUT, ZWECK, SAGT, FRITZ, S..."
7417,408,Rumpelstilz,Kiosk,Ja,ALSO ER SAMMLE FUER EINEN GUTEN ZWECK SAGT DE...,,,,Also\ner Sammle Für 'nen Guten Zweck.\nsagt De...,,,,1977-09-12,1977-09-18,50,ALSO ER SAMMLE FUER EINEN GUTEN ZWECK SAGT DE...,6,1977,9,"[ALSO, SAMML, FUER, GUT, ZWECK, SAGT, FRITZ, S..."
7956,425,Costa Cordalis,Anita,Ja,JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,,,,"jvuiougivtoh Ich fand sie irgendwo,\nallein in...",,,,1977-03-07,1977-03-13,5,JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,6,1977,3,"[JVUIOUGIVTOH, FAND, IRGENDWO, ALLEIN, MEXIKO,..."
7938,425,Costa Cordalis,Anita,Ja,JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,,,,"jvuiougivtoh Ich fand sie irgendwo,\nallein in...",,,,1977-02-14,1977-02-20,3,JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,6,1977,2,"[JVUIOUGIVTOH, FAND, IRGENDWO, ALLEIN, MEXIKO,..."
7955,425,Costa Cordalis,Anita,Ja,JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,,,,"jvuiougivtoh Ich fand sie irgendwo,\nallein in...",,,,1977-03-14,1977-03-20,4,JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,6,1977,3,"[JVUIOUGIVTOH, FAND, IRGENDWO, ALLEIN, MEXIKO,..."


In [75]:
print(df.loc[(df['TEXT_TEIL2'] != "None")].head())

       ID       INTERPRET   TITEL SPRACHE_DEUTSCH  \
7416  408     Rumpelstilz  Kiosk               Ja   
7417  408     Rumpelstilz  Kiosk               Ja   
7956  425  Costa Cordalis  Anita               Ja   
7938  425  Costa Cordalis  Anita               Ja   
7955  425  Costa Cordalis  Anita               Ja   

                                             TEXT_TEIL1 TEXT_TEIL2 TEXT_TEIL3  \
7416  ALSO ER SAMMLE FUER EINEN GUTEN ZWECK  SAGT DE...       None       None   
7417  ALSO ER SAMMLE FUER EINEN GUTEN ZWECK  SAGT DE...       None       None   
7956  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...       None       None   
7938  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...       None       None   
7955  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...       None       None   

     TEXT_TEIL4                                     TEXT_TEIL1_ORI  \
7416       None  Also\ner Sammle Für 'nen Guten Zweck.\nsagt De...   
7417       None  Also\ner Sammle Für 'nen Guten Zweck.

In [76]:
print(df['TEXT_TEIL1_ORI'][3558])

(Oooh... Jetzt... Jetzt brauch' ich einen Drink, ich auch, und eine Zigarette! Und Musik brauch' ich auch!
Nur ein schen Musik, Robert! Ist gut! Und jetzt zur Entspannung ein wenig Musik!)

Ihr wollt ein Liebeslied,
ihr kriegt ein liebes Lied!
Ein Lied, dass Ihr liebt!


Das ist Liebe auf den ersten Kick,
nicht mal Drum 'n Bass hält jetzt mit Deinem Herzen Schritt.
Du hast deinen Schatz gefunden, ohne lang zu buddeln,
Bock ihn in den Arm zu nehmen und stundenlang zu knuddeln, (yes, yoh) hah.
Voll erwischt, du Fisch zappelst am Haken,
heute Nacht wirst du im Zelt vor'm Plattenladen warten.
Dabei ein Radio, falls es noch mal wiederkommt,
spontanes Desinteresse an all' den anderen Liedern prompt,
die alle gleich aussehen und zu viel Schminke nehmen,
aus fünfzig Wörtern wählen um das Gleiche zu erzählen.
Mit Schönheitsoperationen an digitalen Konsolen,
stylemäßig immer wieder gut beraten von Polen.
Für Dich gibt's nur noch eins und sonst keins,
und hält jemand nicht Deins für Nummer eins,


Data Selection

In [77]:
df.drop(['TEXT_TEIL1','TEXT_TEIL2', 'TEXT_TEIL3', 'TEXT_TEIL4'], axis=1, inplace=True)
df.drop(['TEXT_TEIL1_ORI','TEXT_TEIL2_ORI', 'TEXT_TEIL3_ORI', 'TEXT_TEIL4_ORI'], axis=1, inplace=True)
df.drop(['SPRACHE_DEUTSCH'], axis=1, inplace=True)
df_Date = df[['ID', 'DATUM_VON', 'DATUM_BIS', 'DAUER','JAHR', 'MONAT']]
print(df.head())

       ID       INTERPRET   TITEL  DATUM_VON  DATUM_BIS  POSITION  \
7416  408     Rumpelstilz  Kiosk  1977-06-27 1977-07-03        46   
7417  408     Rumpelstilz  Kiosk  1977-09-12 1977-09-18        50   
7956  425  Costa Cordalis  Anita  1977-03-07 1977-03-13         5   
7938  425  Costa Cordalis  Anita  1977-02-14 1977-02-20         3   
7955  425  Costa Cordalis  Anita  1977-03-14 1977-03-20         4   

                                                   TEXT  DAUER  JAHR  MONAT  \
7416  ALSO ER SAMMLE FUER EINEN GUTEN ZWECK  SAGT DE...      6  1977      7   
7417  ALSO ER SAMMLE FUER EINEN GUTEN ZWECK  SAGT DE...      6  1977      9   
7956  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...      6  1977      3   
7938  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...      6  1977      2   
7955  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...      6  1977      3   

                                         processed_TEXT  
7416  [ALSO, SAMML, FUER, GUT, ZWECK, SAGT, FRITZ, S

Feature Creation

In [78]:
df['ANZ_UNIQUE_WOERTER'] = list(len(set(word)) for word in df['processed_TEXT'])
df['MAX_WORT_WDH'] = [max(Counter(text).values()) for text in df['processed_TEXT']]
df['LEN_TEXT'] = [len(text) for text in df['processed_TEXT']]
df['PCT_WORT_WDH'] = [getAnteil(word_list, len(word_list)) for word_list in df['processed_TEXT']]

max_word_list = []
for text in df['processed_TEXT']:
    count = dict(Counter(text).items())
    count = {k: v for k, v in sorted(count.items(), key=lambda item: item[1], reverse=True)}
    key_list = [key for key in count.keys()]
    values_list = [key for key in count.values()]
    text_dict = {'WORD': key_list, 'FREQ': values_list}
    max_word = key_list[0]
    max_word_list.append(max_word)
df['WORT_MAX_WDH'] = max_word_list

df['LEN_LAENGSTES_WORT'] = list(len(max(set(word), key=len)) for word in df['processed_TEXT'])

In [79]:
df

Unnamed: 0,ID,INTERPRET,TITEL,DATUM_VON,DATUM_BIS,POSITION,TEXT,DAUER,JAHR,MONAT,processed_TEXT,ANZ_UNIQUE_WOERTER,MAX_WORT_WDH,LEN_TEXT,PCT_WORT_WDH,WORT_MAX_WDH,LEN_LAENGSTES_WORT
7416,408,Rumpelstilz,Kiosk,1977-06-27,1977-07-03,46,ALSO ER SAMMLE FUER EINEN GUTEN ZWECK SAGT DE...,6,1977,7,"[ALSO, SAMML, FUER, GUT, ZWECK, SAGT, FRITZ, S...",83,6,106,0.016005,KIOSK,13
7417,408,Rumpelstilz,Kiosk,1977-09-12,1977-09-18,50,ALSO ER SAMMLE FUER EINEN GUTEN ZWECK SAGT DE...,6,1977,9,"[ALSO, SAMML, FUER, GUT, ZWECK, SAGT, FRITZ, S...",83,6,106,0.016005,KIOSK,13
7956,425,Costa Cordalis,Anita,1977-03-07,1977-03-13,5,JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,6,1977,3,"[JVUIOUGIVTOH, FAND, IRGENDWO, ALLEIN, MEXIKO,...",73,16,141,0.028338,ANITA,12
7938,425,Costa Cordalis,Anita,1977-02-14,1977-02-20,3,JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,6,1977,2,"[JVUIOUGIVTOH, FAND, IRGENDWO, ALLEIN, MEXIKO,...",73,16,141,0.028338,ANITA,12
7955,425,Costa Cordalis,Anita,1977-03-14,1977-03-20,4,JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,6,1977,3,"[JVUIOUGIVTOH, FAND, IRGENDWO, ALLEIN, MEXIKO,...",73,16,141,0.028338,ANITA,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22128,2303823,AnnenMayKantereit,3 Tage am Meer,2022-09-23,2022-09-29,47,ICH WEISS WAS ICH KANN TROTZDEM AB UND AN KOM...,6,2022,9,"[WEISS, KANN, TROTZD, KOMM, EN, ZWEIFEL, DARAN...",45,11,121,0.054844,DREI,11
22044,2304169,Farid Bang & B-Case,Baller,2022-09-23,2022-09-29,43,BALLER LA LA LA ICH ZIEH DIE WAFFE UND ICH...,6,2022,9,"[BALL, LA, LA, LA, ZIEH, WAFF, BALL, LA, LA, L...",149,42,327,0.032717,LA,14
22648,2304914,Yung Hurn,Alleine,2022-09-23,2022-09-29,6,BABY SAG MIR WAS DU HEUTE MACHST HAST DU ZEI...,6,2022,9,"[BABY, SAG, HEUT, MACH, JA, BABY, SAG, HEUT, M...",58,28,173,0.066797,JA,7
21935,2304939,Azet & Zuna,Ohh oh,2022-09-23,2022-09-29,34,OH OH AH OH ULTRA PLUS BABY BIN MEIN ...,6,2022,9,"[OH, OH, AH, OH, ULTRA, BABY, EIG, CHEF, SITZ,...",109,67,240,0.087820,OH,13


RANK_SCORES

In [80]:
MAX_RANK = 50
df['RANK_SCORE'] = MAX_RANK - df['POSITION'] + 1
df['MAX_RANK_SCORE'] = [max(df.loc[df.ID == id_, 'RANK_SCORE']) for id_ in df['ID']]
df['MEAN_RANK_SCORE'] = [round(mean(df.loc[df.ID == id_, 'RANK_SCORE'])) for id_ in df['ID']]

Percentage of Stopwords

In [81]:
df['NUMBER_OF_STOPWORDS'] = df.TEXT.str.split().apply(lambda x: len(set(x) & set(stopwords_list)))
df['PCT_STOPWORD'] = df.NUMBER_OF_STOPWORDS.apply(lambda row: round(row/len(df['TEXT']), ndigits=5))
df.drop('NUMBER_OF_STOPWORDS', axis=1, inplace=True)

In [82]:
df.reset_index(inplace=True)
df.drop('index',axis=1, inplace=True)
print(df.head())

    ID       INTERPRET   TITEL  DATUM_VON  DATUM_BIS  POSITION  \
0  408     Rumpelstilz  Kiosk  1977-06-27 1977-07-03        46   
1  408     Rumpelstilz  Kiosk  1977-09-12 1977-09-18        50   
2  425  Costa Cordalis  Anita  1977-03-07 1977-03-13         5   
3  425  Costa Cordalis  Anita  1977-02-14 1977-02-20         3   
4  425  Costa Cordalis  Anita  1977-03-14 1977-03-20         4   

                                                TEXT  DAUER  JAHR  MONAT  ...  \
0  ALSO ER SAMMLE FUER EINEN GUTEN ZWECK  SAGT DE...      6  1977      7  ...   
1  ALSO ER SAMMLE FUER EINEN GUTEN ZWECK  SAGT DE...      6  1977      9  ...   
2  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...      6  1977      3  ...   
3  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...      6  1977      2  ...   
4  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...      6  1977      3  ...   

  ANZ_UNIQUE_WOERTER  MAX_WORT_WDH  LEN_TEXT  PCT_WORT_WDH  WORT_MAX_WDH  \
0                 83             6      

Title Analysis

In [83]:
#lemmatize title
#df['processed_TITLE'] = df.TITEL.apply(lambda titel: ' '.join([x.lemma_ for x in nlp(titel)]))
#print(df['processed_TITLE'].head())

#tokenize title
tokenizer = RegexpTokenizer(r'\w+')
df['processed_TITLE'] = df.TITEL.apply(lambda titel: [word for word in tokenizer.tokenize(titel)])

#Stemming
df['processed_TITLE'] = df.processed_TITLE.apply(lambda titel: stemm_List_of_Words(titel))

#remove stopwords
df['processed_TITLE'] = df.processed_TITLE.apply(lambda titel: [word for word in titel if word.upper() not in stopwords_list])

#remove numbers
df['processed_TITLE'] = df.processed_TITLE.apply(lambda word_list : [re.sub('\w*\d\w*','NUM', word) for word in word_list])

In [84]:
df['LEN_TITLE'] = [len(title_list) for title_list in df['processed_TITLE']]
df['ANZ_TITLE_WDH'] = [get_nr_Sublist(df.processed_TEXT[i], df.processed_TITLE[i]) for i in df.index]
df['PCT_TITLE_WDH'] = [df.ANZ_TITLE_WDH[i]/round(df.LEN_TEXT[i]/df.LEN_TITLE[i]) if (df.LEN_TITLE[i] != 0) else 0 for i in df.index]

In [85]:
print(df.head())

    ID       INTERPRET   TITEL  DATUM_VON  DATUM_BIS  POSITION  \
0  408     Rumpelstilz  Kiosk  1977-06-27 1977-07-03        46   
1  408     Rumpelstilz  Kiosk  1977-09-12 1977-09-18        50   
2  425  Costa Cordalis  Anita  1977-03-07 1977-03-13         5   
3  425  Costa Cordalis  Anita  1977-02-14 1977-02-20         3   
4  425  Costa Cordalis  Anita  1977-03-14 1977-03-20         4   

                                                TEXT  DAUER  JAHR  MONAT  ...  \
0  ALSO ER SAMMLE FUER EINEN GUTEN ZWECK  SAGT DE...      6  1977      7  ...   
1  ALSO ER SAMMLE FUER EINEN GUTEN ZWECK  SAGT DE...      6  1977      9  ...   
2  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...      6  1977      3  ...   
3  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...      6  1977      2  ...   
4  JVUIOUGIVTOH ICH FAND SIE IRGENDWO  ALLEIN IN ...      6  1977      3  ...   

  WORT_MAX_WDH  LEN_LAENGSTES_WORT  RANK_SCORE  MAX_RANK_SCORE  \
0        KIOSK                  13           5    

In [86]:
title_list = [title for title in df['processed_TITLE']]
count = dict(Counter(flatten(title_list)).items())
count = {k: v for k, v in sorted(count.items(), key=lambda item: item[1], reverse=True)}
key_list = [key for key in count.keys()]
values_list = [key for key in count.values()]
title_dict = {'WORD': key_list, 'FREQ': values_list}
df_TITEL = pd.DataFrame(title_dict)
print(df_TITEL.head())

    WORD  FREQ
0    NUM  1438
1   LIEB   988
2    ALL   452
3  NACHT   417
4    NUR   375


In [87]:
text_list = [text for text in df['processed_TEXT']]
count = dict(Counter(flatten(text_list)).items())
count = {k: v for k, v in sorted(count.items(), key=lambda item: item[1], reverse=True)}
key_list = [key for key in count.keys()]
values_list = [key for key in count.values()]
text_dict = {'WORD': key_list, 'FREQ': values_list}
df_TEXT = pd.DataFrame(text_dict)
print(df_TEXT.head())

   WORD   FREQ
0   ALL  59080
1  DOCH  49080
2   NUR  45266
3  FUER  41810
4    JA  39032


Seasonal determination

In [99]:
df['IS_SEASONAL'] = [False for _ in range(0, len(df))]
isSeasonal()
df['IS_SEASONAL']

0        False
1        False
2        False
3        False
4        False
         ...  
22757    False
22758    False
22759    False
22760    False
22761    False
Name: IS_SEASONAL, Length: 22762, dtype: bool

In [100]:
df.loc[df['IS_SEASONAL'] == True]

Unnamed: 0,ID,INTERPRET,TITEL,processed_TITLE,TEXT,processed_TEXT,DATUM_VON,DATUM_BIS,JAHR,MONAT,...,PCT_TITLE_WDH,LEN_TITLE,LEN_TEXT,IS_SEASONAL,IS_MULTILINGUAL,PCT_GERMAN,POSITION,RANK_SCORE,MAX_RANK_SCORE,MEAN_RANK_SCORE
10767,108812,Rolf Zuckowski und seine Freunde,In der Weihnachtsbäckerei,[WEIHNACHTSBACKEREI],IN DER WEIHNACHTSBAECKEREI GIBT ES MANCHE LEC...,"[WEIHNACHTSBAECKEREI, GIBT, MANCH, LECKEREI, Z...",2021-01-01,2021-01-07,2021,1,...,0.0,1,110,True,False,,40,11,31,19
10768,108812,Rolf Zuckowski und seine Freunde,In der Weihnachtsbäckerei,[WEIHNACHTSBACKEREI],IN DER WEIHNACHTSBAECKEREI GIBT ES MANCHE LEC...,"[WEIHNACHTSBAECKEREI, GIBT, MANCH, LECKEREI, Z...",2021-12-17,2021-12-23,2021,12,...,0.0,1,110,True,False,,36,15,31,19
10769,108812,Rolf Zuckowski und seine Freunde,In der Weihnachtsbäckerei,[WEIHNACHTSBACKEREI],IN DER WEIHNACHTSBAECKEREI GIBT ES MANCHE LEC...,"[WEIHNACHTSBAECKEREI, GIBT, MANCH, LECKEREI, Z...",2020-12-18,2020-12-24,2020,12,...,0.0,1,110,True,False,,34,17,31,19
10770,108812,Rolf Zuckowski und seine Freunde,In der Weihnachtsbäckerei,[WEIHNACHTSBACKEREI],IN DER WEIHNACHTSBAECKEREI GIBT ES MANCHE LEC...,"[WEIHNACHTSBAECKEREI, GIBT, MANCH, LECKEREI, Z...",2020-12-25,2020-12-31,2020,12,...,0.0,1,110,True,False,,31,20,31,19
10771,108812,Rolf Zuckowski und seine Freunde,In der Weihnachtsbäckerei,[WEIHNACHTSBACKEREI],IN DER WEIHNACHTSBAECKEREI GIBT ES MANCHE LEC...,"[WEIHNACHTSBAECKEREI, GIBT, MANCH, LECKEREI, Z...",2021-12-03,2021-12-09,2021,12,...,0.0,1,110,True,False,,28,23,31,19
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21862,2205807,Montez,Auf & ab,[],RUF MICH NICHT AN WENN DU WACH WIRST UND SAG...,"[RUF, WACH, SAG, LETZT, NACHT, WILL, NEB, AUFW...",2022-04-29,2022-05-05,2022,5,...,0.0,0,189,True,False,,35,16,50,29
21863,2205807,Montez,Auf & ab,[],RUF MICH NICHT AN WENN DU WACH WIRST UND SAG...,"[RUF, WACH, SAG, LETZT, NACHT, WILL, NEB, AUFW...",2022-04-22,2022-04-28,2022,4,...,0.0,0,189,True,False,,30,21,50,29
21864,2205807,Montez,Auf & ab,[],RUF MICH NICHT AN WENN DU WACH WIRST UND SAG...,"[RUF, WACH, SAG, LETZT, NACHT, WILL, NEB, AUFW...",2022-04-15,2022-04-21,2022,4,...,0.0,0,189,True,False,,24,27,50,29
21865,2205807,Montez,Auf & ab,[],RUF MICH NICHT AN WENN DU WACH WIRST UND SAG...,"[RUF, WACH, SAG, LETZT, NACHT, WILL, NEB, AUFW...",2022-05-13,2022-05-19,2022,5,...,0.0,0,189,True,False,,49,2,50,29


MULTILINGUAL DETECTION

In [92]:
df['IS_MULTILINGUAL'] = [False for _ in range(0, len(df))]
df['PCT_GERMAN'] = np.nan

Reshape df

In [93]:
new_cols = ['ID', 'INTERPRET', 'TITEL', 'processed_TITLE', 'TEXT', 'processed_TEXT', 'DATUM_VON', 'DATUM_BIS', 'JAHR', 'MONAT', 'DAUER','ANZ_UNIQUE_WOERTER', 'MAX_WORT_WDH', 'WORT_MAX_WDH','LEN_LAENGSTES_WORT', 'ANZ_TITLE_WDH', 'PCT_STOPWORD','PCT_WORT_WDH', 'PCT_TITLE_WDH', 'LEN_TITLE','LEN_TEXT', 'IS_SEASONAL', 'IS_MULTILINGUAL','PCT_GERMAN', 'POSITION', 'RANK_SCORE', 'MAX_RANK_SCORE', 'MEAN_RANK_SCORE']
df=df[new_cols]
df=df.reindex(columns=new_cols)
print(np.shape(df))

(22762, 28)


In [94]:
df.columns

Index(['ID', 'INTERPRET', 'TITEL', 'processed_TITLE', 'TEXT', 'processed_TEXT',
       'DATUM_VON', 'DATUM_BIS', 'JAHR', 'MONAT', 'DAUER',
       'ANZ_UNIQUE_WOERTER', 'MAX_WORT_WDH', 'WORT_MAX_WDH',
       'LEN_LAENGSTES_WORT', 'ANZ_TITLE_WDH', 'PCT_STOPWORD', 'PCT_WORT_WDH',
       'PCT_TITLE_WDH', 'LEN_TITLE', 'LEN_TEXT', 'IS_SEASONAL',
       'IS_MULTILINGUAL', 'PCT_GERMAN', 'POSITION', 'RANK_SCORE',
       'MAX_RANK_SCORE', 'MEAN_RANK_SCORE'],
      dtype='object')

Export

In [51]:
df.to_csv('Data/processed/EDA.csv')
df_Date.to_csv('Data/processed/DATE.csv')
df_TITEL.to_csv('Data/processed/TITLE-ANALYSIS.csv')
df_TEXT.to_csv('Data/processed/TEXT-ANALYSIS.csv')

In [103]:
df['INTERPRET'] = df['INTERPRET'].astype('str')
df.dtypes

ID                             int32
INTERPRET                     object
TITEL                         object
processed_TITLE               object
TEXT                          object
processed_TEXT                object
DATUM_VON             datetime64[ns]
DATUM_BIS             datetime64[ns]
JAHR                           int16
MONAT                          int16
DAUER                          int16
ANZ_UNIQUE_WOERTER             int64
MAX_WORT_WDH                   int64
WORT_MAX_WDH                  object
LEN_LAENGSTES_WORT             int64
ANZ_TITLE_WDH                  int64
PCT_STOPWORD                 float64
PCT_WORT_WDH                 float64
PCT_TITLE_WDH                float64
LEN_TITLE                      int64
LEN_TEXT                       int64
IS_SEASONAL                     bool
IS_MULTILINGUAL                 bool
PCT_GERMAN                   float64
POSITION                       int64
RANK_SCORE                     int64
MAX_RANK_SCORE                 int64
M

In [104]:
df

Unnamed: 0,ID,INTERPRET,TITEL,processed_TITLE,TEXT,processed_TEXT,DATUM_VON,DATUM_BIS,JAHR,MONAT,...,PCT_TITLE_WDH,LEN_TITLE,LEN_TEXT,IS_SEASONAL,IS_MULTILINGUAL,PCT_GERMAN,POSITION,RANK_SCORE,MAX_RANK_SCORE,MEAN_RANK_SCORE
0,408,Rumpelstilz,Kiosk,[KIOSK],ALSO ER SAMMLE FUER EINEN GUTEN ZWECK SAGT DE...,"[ALSO, SAMML, FUER, GUT, ZWECK, SAGT, FRITZ, S...",1977-06-27,1977-07-03,1977,7,...,0.056604,1,106,False,False,,46,5,5,3
1,408,Rumpelstilz,Kiosk,[KIOSK],ALSO ER SAMMLE FUER EINEN GUTEN ZWECK SAGT DE...,"[ALSO, SAMML, FUER, GUT, ZWECK, SAGT, FRITZ, S...",1977-09-12,1977-09-18,1977,9,...,0.056604,1,106,False,False,,50,1,5,3
2,425,Costa Cordalis,Anita,[ANITA],JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,"[JVUIOUGIVTOH, FAND, IRGENDWO, ALLEIN, MEXIKO,...",1977-03-07,1977-03-13,1977,3,...,0.113475,1,141,False,False,,5,46,48,38
3,425,Costa Cordalis,Anita,[ANITA],JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,"[JVUIOUGIVTOH, FAND, IRGENDWO, ALLEIN, MEXIKO,...",1977-02-14,1977-02-20,1977,2,...,0.113475,1,141,False,False,,3,48,48,38
4,425,Costa Cordalis,Anita,[ANITA],JVUIOUGIVTOH ICH FAND SIE IRGENDWO ALLEIN IN ...,"[JVUIOUGIVTOH, FAND, IRGENDWO, ALLEIN, MEXIKO,...",1977-03-14,1977-03-20,1977,3,...,0.113475,1,141,False,False,,4,47,48,38
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22757,2303823,AnnenMayKantereit,3 Tage am Meer,"[NUM, TAG, MEER]",ICH WEISS WAS ICH KANN TROTZDEM AB UND AN KOM...,"[WEISS, KANN, TROTZD, KOMM, EN, ZWEIFEL, DARAN...",2022-09-23,2022-09-29,2022,9,...,0.000000,3,121,False,False,,47,4,4,4
22758,2304169,Farid Bang & B-Case,Baller,[BALL],BALLER LA LA LA ICH ZIEH DIE WAFFE UND ICH...,"[BALL, LA, LA, LA, ZIEH, WAFF, BALL, LA, LA, L...",2022-09-23,2022-09-29,2022,9,...,0.042813,1,327,False,False,,43,8,8,8
22759,2304914,Yung Hurn,Alleine,[ALLEIN],BABY SAG MIR WAS DU HEUTE MACHST HAST DU ZEI...,"[BABY, SAG, HEUT, MACH, JA, BABY, SAG, HEUT, M...",2022-09-23,2022-09-29,2022,9,...,0.040462,1,173,False,False,,6,45,45,45
22760,2304939,Azet & Zuna,Ohh oh,"[OHH, OH]",OH OH AH OH ULTRA PLUS BABY BIN MEIN ...,"[OH, OH, AH, OH, ULTRA, BABY, EIG, CHEF, SITZ,...",2022-09-23,2022-09-29,2022,9,...,0.000000,2,240,False,False,,34,17,17,17


In [105]:
engine = create_engine('postgresql://OutsideUser:Xpr9XyDwx3ZfJyq2BNaW@92.205.167.58:8787/text_analytics')
#df.head(0).to_sql('processed_data', engine, if_exists='replace',index=False) #drops old table and creates new empty table
conn = engine.raw_connection()
cur = conn.cursor()
output = io.StringIO()
df.to_csv(output, sep='\t', header=False, index=False)
output.seek(0)
contents = output.getvalue()
cur.copy_from(output, 'processed_data', null="")
conn.commit()