The best dataset I've found so far contains conversational sentences from film and series subtitles with translations for multiple languages:

https://opus.nlpl.eu/OpenSubtitles-v2018.php

https://github.com/PolyAI-LDN/conversational-datasets

In [51]:
import os
import constants
import pandas as pd

In [52]:
constants.language_code = 'de'

In [53]:
filepath = os.path.join(f"../input_files/{constants.language_code}", "uncleaned_sentences.csv")
df = pd.read_csv(filepath, delimiter='\t', header=None)
df.columns = ["id", "sentence"]

In [54]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2646183 entries, 0 to 2646182
Data columns (total 2 columns):
 #   Column    Dtype 
---  ------    ----- 
 0   id        int64 
 1   sentence  object
dtypes: int64(1), object(1)
memory usage: 40.4+ MB


In [55]:
df.head()

Unnamed: 0,id,sentence
0,1,­
1,2,.
2,3,"0,00001% der Stimmrechte (das entspricht 14 St..."
3,4,"0,00001% der Stimmrechte (das entspricht 257 S..."
4,5,00:00 DGAP-AFR: AGROB Immobilien AG: Bekanntma...


In [56]:
# Let's see if there are any duplicates in the dataset
df[df["sentence"].duplicated(keep=False)].sort_values("sentence").head(8)

Unnamed: 0,id,sentence
37111,38627,Aber es gibt Prinzipien für das öffentliche Zu...
37112,38628,Aber es gibt Prinzipien für das öffentliche Zu...
38365,39942,"Aber es wird unglaublich schwer sein, die gena..."
38366,39943,"Aber es wird unglaublich schwer sein, die gena..."
40936,42706,Aber ich sehe es noch nicht.
40937,42707,Aber ich sehe es noch nicht.
52964,55417,Aber wissen Sie was?
52965,55418,Aber wissen Sie was?


In [57]:
df.dtypes

id           int64
sentence    object
dtype: object

In [58]:
# Remove all duplicates from the dataframe
df = df.drop_duplicates("sentence")

In [59]:
lengths: pd.Series = df['sentence'].str.len()
max_characters: int = lengths.max()
max_index = lengths.idxmax()

# Find the sentence with the most characters to see if there are any delimitation issues.
print(f'Longest sentence: {max_characters} characters')
print(df[df.index == max_index]['sentence'].values[0][:600]) # Print out first 600 characters

Longest sentence: 70877 characters
Kontaktloses Zahlen ermöglicht nicht nur die einfachste Bedienung für Kunden, sondern beschleunigt auch den Transaktionsprozess für Händler enorm.
1815945	Kontaktlose Türschloss-Systeme senden ein Funksignal zwischen Autotür und Wagenschlüssel, etwa wenn der Fahrer einen Knopf auf seinem Schlüssel betätigt.
1815946	Kontakt Luftbelastung im Jahr 2014 gesunken Der Grenzwert für Ozon in der Salzburger Luft wurde im Jahr 2014 eingehalten.
1815947	Kontakt Lufthansa will mehr Gewinn von AUA Noch nicht gänzlich zufrieden ist Lufthansa-Chef Carsten Spohr mit der Konzerntochter AUA.
1815948	Kontakt Luk


In [60]:
# Cut off any sentences longer than 200 or 
# shorter than 30 characters
df = df[
    (df['sentence'].str.len() < 200)
    & (df['sentence'].str.len() > 30)
     ]


In [61]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2355301 entries, 2 to 2646182
Data columns (total 2 columns):
 #   Column    Dtype 
---  ------    ----- 
 0   id        int64 
 1   sentence  object
dtypes: int64(1), object(1)
memory usage: 53.9+ MB


In [62]:
# Randomly sample n rows to get a reduced dataset for easier training while testing out this method. Set a seed for reproducability.
#n_rows = 30000

#reduced_df = df.sample(n=n_rows, random_state=1)

In [63]:
# Remove id column and save dataframes as csv
df.to_csv(f"../output_files/{constants.language_code}/step0_sentences.csv", sep='\t', index=False)
#reduced_df.to_csv("./french_sentences_reduced.csv", sep='\t', index=False)