In [14]:
import os
import pandas as pd

In [15]:
filepath = os.path.join("./fra_mixed_2009_1M", "fra_mixed_2009_1M-sentences.txt")
df = pd.read_csv(filepath, delimiter='\t', header=None)
df.columns = ["id", "sentence"]

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 955721 entries, 0 to 955720
Data columns (total 2 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        955721 non-null  int64 
 1   sentence  955721 non-null  object
dtypes: int64(1), object(1)
memory usage: 14.6+ MB


In [17]:
df.head()

Unnamed: 0,id,sentence
0,1,La CGT avait d'ailleurs critiqué l'avis de la ...
1,2,Pour ladressage rapide et professionnel de vo...
2,3,La vierge du Seigneur sen alla ensuite termin...
3,4,Présentation de celui-ci à plusieurs écoles pr...
4,5,"Car chez le tout-petit, une diarrhée aiguë n'e..."


In [5]:
# Let's see if there are any duplicates in the dataset
df[df["sentence"].duplicated(keep=False)].sort_values("sentence").head(8)

Unnamed: 0,id,sentence
720964,754536,"A cela, plusieurs raisons."
362750,379060,"A cela, plusieurs raisons."
760195,795531,A une nuance près.
703079,735861,A une nuance près.
283138,295627,C'est exactement ça.
137998,143844,C'est exactement ça.
948786,992717,C'est sans fin.
31007,32217,C'est sans fin.


In [18]:
df.dtypes

id           int64
sentence    object
dtype: object

In [19]:
# Remove all duplicates from the dataframe
df = df.drop_duplicates("sentence")

In [8]:
lengths: pd.Series = df['sentence'].str.len()
max_characters: int = lengths.max()
max_index = lengths.idxmax()

# Find the sentence with the most characters to see if there are any delimitation issues.
print(f'Longest sentence: {max_characters} characters')
print(df[df.index == max_index]['sentence'].values[0][:600]) # Print out first 600 characters

Longest sentence: 13377 characters
Mon ami Kouchner a aussi déclaré que nous allions bientôt attaquer la Moldavie et l'Ukraine et la Crimée (...).
992933	Les tentative d'évasion sont découragées par des barrières types de camp de concentration (comme la sécurité lourde et les barrières électrifiées).
992934	Dans leur efforts pour exterminer ce mouvement naissant, les autorités de la Perse fusillèrent le Báb (1850) et martyrisèrent plus de vingt mille de ses adeptes.
992935	Il y aurait donc là un moyen de bien discriminer entre ville et campagne.
992936	Merci de continuer à nous lire avec attention... et nhésitez pas à nous fai


For some reason, it seems like some of the rows in the .txt files aren't being parsed properly. Let's fix this.

In [20]:
# For now I'll just cut off all sentences longer than 200 characters and save a random sample
# of 30,000 of them
df = df[df['sentence'].str.len() < 200]

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 850171 entries, 2 to 955719
Data columns (total 2 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        850171 non-null  int64 
 1   sentence  850171 non-null  object
dtypes: int64(1), object(1)
memory usage: 19.5+ MB


In [22]:
# Randomly sample n rows to get a reduced dataset for easier training during testing. Set a seed for reproducability.
n_rows = 30000

reduced_df = df.sample(n=n_rows, random_state=1)

In [29]:
# Remove id column and save dataframe as csv
reduced_df.to_csv("./french_sentences_reduced.csv", sep='\t', index=False)