# 04 Text Preparation

For Text Preparation iam sticking to methods that are defined in Prof. Albrechts Book: [Blueprints for Text Analytics Using Python](https://learning.oreilly.com/library/view/blueprints-for-text/9781492074076/ch04.html#idm46749280280440).
I will be using some of his python code original or slightly modified from here [Github Repo](https://github.com/blueprints-for-text-analytics-python/blueprints-text/blob/master/ch04/Data_Preparation.ipynb).

The first step of text preparation is cleaning the text. Espescially tweets can be very dirty, containing weird punctuation, symbols smileys and others.
The cleaning function from Prof. Albrechts lectures materials that is slightly modified for this context here will be used.

In [4]:
import pandas as pd
from src.text_preparation_04 import clean


df = pd.read_csv("/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Language_min/de.csv")

  from .autonotebook import tqdm as notebook_tqdm


See an example on how the cleaning modifies the text from the german tweets. As you can see even though the cleaning improves the texts a little bit, the texts are still not very clean.

In [5]:
df_sample = df.sample(10)
df_sample["cleaned_text"] = df_sample["text"].apply(clean)

print(df_sample[["text"]].iloc[0]["text"])

print("")

print(df_sample[["cleaned_text"]].iloc[0]["cleaned_text"])

Absolut sehenswerte Einordnung der Hintergründe und aktuellen Ereignisse rund um den #UkraineKrieg. https://t.co/okaiNsguFA

absolut sehenswerte einordnung der hintergründe und aktuellen ereignisse rund um den  ukrainekrieg.


The second step is lemma extraction. Here lemmas, nouns, adjectives, verbs and emojis are extracted and lemmatised. I again use a modified version of Prof. Albrechts function from his Natural Language Processing Lectures. 
See an example for how the process works on german tweets.

In [17]:
import spacy
from spacymoji import Emoji
from src.text_preparation_04 import add_lemmas_to_df

df_sample = df.sample(10)
df_sample["cleaned_text"] = df_sample["text"].apply(clean)


nlp = spacy.load("de_core_news_sm")
nlp.add_pipe("emoji", first=True)

df_sample = add_lemmas_to_df(df_sample, nlp)

print(df_sample.iloc[0]["cleaned_text"])

print("")

print(df_sample.iloc[0][["lemmas"]])
print(df_sample.iloc[0][["nouns"]])
print(df_sample.iloc[0][["adjs_verbs"]])
print(df_sample.iloc[0][["emojis"]])

100%|██████████| 1/1 [00:00<00:00, 14.58it/s]

dabei wird indes auch erkennbar, dass "der westen" die neuen realitäten nicht erkennen kann oder will.  china ist zur  supermacht geworden und schließt als solche diplomatische abkommen mit seinen nachbarn. egal ob  australien, die  usa oder  eu das wollen oder nicht.

lemmas    [dabei, indes, auch, erkennbar, Westen, neu, Realität, erkennen, wollen, China, zu, Supermacht, schließen, als, diplomatisch, Abkommen, mit, Nachbar, egal, Australien, USA, EU, der, wollen]
Name: 1083033, dtype: object
nouns    [Westen, Realität, China, Supermacht, Abkommen, Nachbar, Australien, USA, EU]
Name: 1083033, dtype: object
adjs_verbs    [neu, erkennen, wollen, schließen, diplomatisch, wollen]
Name: 1083033, dtype: object
emojis    []
Name: 1083033, dtype: object





## Lemma Extraction 
In the following section for every language the lemmas will be extracted and saved with the original text in /Lemmas . This is a very computional heavy calculation. On the biggest english tweet dataset it took my poor computer more then 24 hours to do this. So don't rerun this cells! Saving dfs hase been commented out to prevent overriding.

### Creating Lemmas for Germany Tweets

In [28]:
import spacy
from spacymoji import Emoji
from src.text_preparation_04 import clean, add_lemmas_to_df
import pandas as pd


df = pd.read_csv(
    "/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Language_min_dedupl/de.csv"
).sample(30)
df["cleaned_text"] = df["text"].progress_apply(clean)
nlp = spacy.load("de_core_news_sm")
nlp.add_pipe("emoji", first=True)

df = add_lemmas_to_df(df, nlp)

# df[['tweetid','tweetcreatedts','lemmas','adjs_verbs','nouns', 'entities', 'emojis']].to_csv("")

100%|██████████| 30/30 [00:00<00:00, 7774.43it/s]
100%|██████████| 1/1 [00:00<00:00,  5.52it/s]


In [29]:
df

Unnamed: 0.1,Unnamed: 0,text,tweetcreatedts,tweetid,dupl,cleaned_text,lemmas,adjs_verbs,nouns,entities,emojis
1216455,1304086,"@ntvde Man muss klar konstatieren: das Schicksal der #Erde liegt dieser Tage in den Händen weniger russischer Militärs, die #Putin entweder aus dem Weg räumen, oder dieser Typ wird in seinem relig...",2022-10-07 06:23:25,1.5782697466799268e+18,[],"man muss klar konstatieren: das schicksal der erde liegt dieser tage in den händen weniger russischer militärs, die putin entweder aus dem weg räumen, oder dieser typ wird in seinem religiös-nat...","[man, muss, klar, konstatieren, Schicksal, Erde, liegen, Tag, in, händen, russisch, Militär, Putin, aus, Weg, räumen, Typ, in, religiös-nationalistisch, Wahn, Jahr, alt, Planet, nuklear, vernichte...","[konstatieren, liegen, russisch, räumen, religiös-nationalistisch, alt, vernichten]","[Schicksal, Erde, Tag, händen, Militär, Putin, Weg, Typ, Wahn, Jahr, Planet, Russland]","[erde/LOC, russischer/MISC, religiös-nationalistischen/MISC, russland/LOC]",[]
952682,1020005,"@Die_Gruenen befürworten die deutsche Forschung, um amerikanische #Atombomben in Deutschland zu platzieren, diese Grünen würden Gehirnwäsche unterzogen! @derspiegel @sternde @guardian @NOS @telegr...",2022-06-09 11:51:47.000000,1.53486583925769e+18,[],"befürworten die deutsche forschung, um amerikanische atombomben in deutschland zu platzieren, diese grünen würden gehirnwäsche unterzogen! zelensky ukraine","[befürworten, deutsch, Forschung, amerikanisch, Atombombe, in, Deutschland, platzieren, grüne, gehirnwäsch, unterzogen, Zelensky, Ukraine]","[befürworten, deutsch, amerikanisch, platzieren, gehirnwäsch]","[Forschung, Atombombe, Deutschland, grüne, unterzogen, Zelensky, Ukraine]","[deutsche_forschung/ORG, amerikanische/MISC, deutschland/LOC]",[]
1297107,1390823,#RussiaUkraineWar\n#Russland\n#Verteidigungsminister #Schoigu soll Herzprobleme haben...\nNa bei dem bis dato erfolglosen #Blumenstrauß-#Angriff hätte ich auch welche https://t.co/sE2XoWsroo,2022-03-26 10:00:24.000000,1.5076587181959946e+18,[],russiaukrainewar russland verteidigungsminister schoigu soll herzprobleme haben... na bei dem bis dato erfolglosen blumenstraußangriff hätte ich auch welche,"[Russiaukrainewar, Russland, Verteidigungsminister, Schoigu, Herzproblem, haben, bei, bis, dato, erfolglosen, Blumenstraußangriff, ich, auch, welcher]","[haben, erfolglosen]","[Russland, Verteidigungsminister, Schoigu, Herzproblem, Blumenstraußangriff]","[russland/LOC, schoigu/PER, na/ORG]",[]
429462,456568,"Olaf #Scholz schließt aus, dass wir unsere Öl- &amp; Gasimporte in #Rubel bezahlen. Das ist richtig und heißt konkret: Wenn Putin bei seiner Position bleibt, dann wird es keine 🇷🇺 Öl- und Gasliefe...",2022-03-28 15:44:45.000000,1.508470153884967e+18,[],"olaf scholz schließt aus, dass wir unsere ölgasimporte in rubel bezahlen. das ist richtig und heißt konkret: wenn putin bei seiner position bleibt, dann wird es keine 🇷🇺 ölund gaslieferungen meh...","[Olaf, Scholz, schließen, aus, wir, ölgasimporte, in, Rubel, bezahlen, der, richtig, heißen, konkret, Putin, bei, Position, bleiben, dann, es, Ölund, Gaslieferung, mehr, geben, Ukraine]","[schließen, bezahlen, heißen, bleiben, geben]","[Scholz, ölgasimporte, Rubel, Putin, Position, Ölund, Gaslieferung, Ukraine]",[putin/PER],[🇷🇺]
536155,570523,Gute Analyse des Ex Legionärs Gast zur Panzerlieferung der @BMVg_Bundeswehr in die #Ukraine\n\nhttps://t.co/c5u4KxQVFh,2022-04-14 07:27:13.000000,1.514505538800869e+18,[],gute analyse des ex legionärs gast zur panzerlieferung der in die ukraine,"[gut, Analyse, ex, Legionär, Gast, zu, Panzerlieferung, in, Ukraine]","[gut, Ukraine]","[Analyse, ex, Legionär, Gast, Panzerlieferung]",[ex_legionärs/LOC],[]
117766,125137,"@Bundeskanzler @ZDF Super Job @Bundeskanzler und hoffen wir, das die 🇺🇦💙💛 sich gut verteidigen kann und dieser Irrsinn endlich ein Ende machen. #Habeck @ABaerbock #Ukraine️ #PutinWarCriminal",2022-05-02 18:43:57.000000,1.521198826035548e+18,[],"super job und hoffen wir, das die 🇺🇦💙💛 sich gut verteidigen kann und dieser irrsinn endlich ein ende machen. habeck ukraine️ putinwarcriminal","[Super, Job, hoffen, wir, der, sich, gut, verteidigen, Irrsinn, endlich, Ende, machen, Habeck, ukraine️, putinwarcriminal]","[hoffen, verteidigen, machen]","[Super, Job, Irrsinn, Ende, Habeck, ukraine️]",[💛/LOC],"[🇺🇦, 💙, 💛]"
1418431,1521111,...die #USA haben wahrlich kein Interesse an einer Eskalation des Krieges in der #Ukraine. 🤡 https://t.co/mqW5R7jrQG,2022-10-15 01:13:02,1.5810907405996564e+18,[],...die usa haben wahrlich kein interesse an einer eskalation des krieges in der ukraine. 🤡,"[USA, wahrlich, Interesse, an, Eskalation, Krieg, in, Ukraine]",[],"[USA, Interesse, Eskalation, Krieg, Ukraine]","[usa/LOC, krieges/MISC, ukraine/LOC, 🤡/MISC]",[🤡]
915837,980373,"Wie hat mein Opa( Jahrgang 29) immer gesagt:\n\n,,Dem Russ, dem Russ kann na net traue“… #Putin",2023-02-21 17:40:12,1.6280872024283668e+18,[],"wie hat mein opa( jahrgang 29) immer gesagt: ,,dem russ, dem russ kann na net traue""… putin","[wie, Opa, Jahrgang, immer, sagen, Russ, Russ, na, net, Traue, Putin]",[sagen],"[Opa, Jahrgang, Russ, Russ, na, net, Traue, Putin]","[mein_opa/ORG, na/LOC]",[]
369563,392423,Überlastete Häfen weltweit: Schiffsstau in Shanghai könnte noch Monate dauern https://t.co/PBY1kDPAZu #Wirtschaft #News #Industrie #Logistik #China,2022-05-10 07:50:18.000000,1.523933434590151e+18,[],überlastete häfen weltweit: schiffsstau in shanghai könnte noch monate dauern wirtschaft news industrie logistik china,"[überlastet, Häfe, weltweit, Schiffsstau, in, Shanghai, noch, Monat, dauern, Wirtschaft, Industrie, Logistik, China]","[überlastet, dauern]","[Häfe, Schiffsstau, Shanghai, Monat, Wirtschaft, Industrie, Logistik, China]","[schiffsstau/LOC, shanghai/LOC, china/LOC]",[]
542699,577398,@Makeiev Ich habe keine Worte dafür😢\n\n💙💛\n\n#RussiaIsATerroristState \n\n#RussianWarCrimes,2023-06-06 10:26:53,1.666028881214681e+18,[],ich habe keine worte dafür😢 💙💛 russiaisaterroriststate russianwarcrimes,"[ich, haben, Wort, dafür, russiaisaterroriststat, russianwarcrim]","[haben, russiaisaterroriststat, russianwarcrim]",[Wort],[💛/LOC],"[😢, 💙, 💛]"


In [9]:
a = df.iloc[1].text

In [12]:
len(a)

a_1 = a[:150]
a_2 = a[150:]

In [13]:
a_1

'EU-Kommission kritisiert Importstopp von ukrainischem Getreide: Die Europäische Kommission hat den von Polen und Ungarn beschlossenen Einfuhrstopp von'

In [14]:
a_2

' Getreide und anderen Agrargütern aus der Ukraine kritisiert. Einseitige Handelsmaßnahmen der… https://t.co/F26Na2kubF #Ukraine'

### Creating Lemmas for English Tweets

In [None]:
import spacy
from spacymoji import Emoji
from src.text_preparation_04 import clean, add_lemmas_to_df
import pandas as pd


df = pd.read_csv(
    "/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Language_min_dedupl/en.csv"
)
df["cleaned_text"] = df["text"].progress_apply(clean)
nlp = spacy.load("en_core_web_sm")
nlp.add_pipe("emoji", first=True)

df = add_lemmas_to_df(df, nlp)

# df[['tweetid','tweetcreatedts','lemmas','adjs_verbs','nouns', 'entities', 'emojis']].to_csv("/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Lemmas/en.csv")

  0%|          | 0/12116412 [00:00<?, ?it/s]

  0%|          | 0/121165 [00:00<?, ?it/s]

### Creating Lemmas for Russian Tweets

In [20]:
import spacy
from spacymoji import Emoji
from src.text_preparation_04 import clean, add_lemmas_to_df
import pandas as pd


df = pd.read_csv(
    "/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Language_min_dedupl/ru.csv"
)
df["cleaned_text"] = df["text"].progress_apply(clean)
nlp = spacy.load("ru_core_news_sm")
nlp.add_pipe("emoji", first=True)

df = add_lemmas_to_df(df, nlp)

# df[['tweetid','tweetcreatedts','lemmas','adjs_verbs','nouns', 'entities', 'emojis']].to_csv("/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Lemmas/ru.csv")

KeyboardInterrupt: 

### Creating Lemmas for Spanish Tweets

In [21]:
import spacy
from spacymoji import Emoji
from src.text_preparation_04 import clean, add_lemmas_to_df
import pandas as pd


df = pd.read_csv(
    "/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Language_min_dedupl/es.csv"
)
df["cleaned_text"] = df["text"].progress_apply(clean)
nlp = spacy.load("es_core_news_sm")
nlp.add_pipe("emoji", first=True)

df = add_lemmas_to_df(df, nlp)

# df[['tweetid','tweetcreatedts','lemmas','adjs_verbs','nouns', 'entities', 'emojis']].to_csv("/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Lemmas/es.csv")

100%|██████████| 1002517/1002517 [01:34<00:00, 10578.34it/s]
100%|██████████| 10026/10026 [4:15:56<00:00,  1.53s/it]     


### Creating Lemmas for Italian Tweets

In [22]:
import spacy
from spacymoji import Emoji
from src.text_preparation_04 import clean, add_lemmas_to_df
import pandas as pd


df = pd.read_csv(
    "/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Language_min_dedupl/it.csv"
)
df["cleaned_text"] = df["text"].progress_apply(clean)
nlp = spacy.load("it_core_news_sm")
nlp.add_pipe("emoji", first=True)

df = add_lemmas_to_df(df, nlp)

# df[['tweetid','tweetcreatedts','lemmas','adjs_verbs','nouns', 'entities', 'emojis']].to_csv("/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Lemmas/it.csv")

100%|██████████| 1178277/1178277 [01:47<00:00, 10922.41it/s]
100%|██████████| 11783/11783 [16:55:06<00:00,  5.17s/it]      


### Creating Lemmas for French Tweets

In [25]:
import spacy
from spacymoji import Emoji
from src.text_preparation_04 import clean, add_lemmas_to_df
import pandas as pd


df = pd.read_csv(
    "/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Language_min_dedupl/fr.csv"
)
df["cleaned_text"] = df["text"].progress_apply(clean)
nlp = spacy.load("fr_core_news_sm")
nlp.add_pipe("emoji", first=True)

df = add_lemmas_to_df(df, nlp)

df[
    ["tweetid", "tweetcreatedts", "lemmas", "adjs_verbs", "nouns", "entities", "emojis"]
].to_csv("/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Lemmas/fr.csv")

100%|██████████| 1049599/1049599 [01:58<00:00, 8849.74it/s]
100%|██████████| 10496/10496 [5:19:09<00:00,  1.82s/it]      


### Creating Lemmas for Ukrainian Tweets

In [26]:
import spacy
from spacymoji import Emoji
from src.text_preparation_04 import clean, add_lemmas_to_df
import pandas as pd


df = pd.read_csv(
    "/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Language_min_dedupl/uk.csv"
)
df["cleaned_text"] = df["text"].progress_apply(clean)
nlp = spacy.load("uk_core_news_sm")
nlp.add_pipe("emoji", first=True)

df = add_lemmas_to_df(df, nlp)

df[
    ["tweetid", "tweetcreatedts", "lemmas", "adjs_verbs", "nouns", "entities", "emojis"]
].to_csv("/Users/robinfeldmann/TopicAnalysisRUWTweets/Data/Lemmas/uk.csv")

100%|██████████| 899934/899934 [01:01<00:00, 14590.00it/s]
100%|██████████| 9000/9000 [7:26:01<00:00,  2.97s/it]       


# 8 Explorativ Analysis

In [None]:
df_sample = df

In [None]:
from collections import Counter

counter_nouns = Counter()
counter_verbs = Counter()
counter_lemmas = Counter()
counter_emojis = Counter()
for ind, row in df_sample.iterrows():
    counter_nouns.update(row["nouns"])
    counter_verbs.update(row["adjs_verbs"])
    counter_lemmas.update(row["lemmas"])
    counter_emojis.update(row["emojis"])

In [None]:
sum(counter_nouns.values())

9331

In [None]:
counter_nouns.most_common(10)

[('russia', 303),
 ('ukraine', 298),
 ('war', 140),
 ('putin', 130),
 ('news', 69),
 ('people', 66),
 ('usa', 65),
 ('nato', 60),
 ('biden', 47),
 ('country', 44)]

In [None]:
counter_verbs.most_common(10)

[('ukraine', 161),
 ('russian', 139),
 ('ukrainian', 84),
 ('have', 80),
 ('say', 65),
 ('go', 50),
 ('more', 44),
 ('ukrainewar', 44),
 ('do', 43),
 ('new', 42)]