Text Extraction and Part 1 of EDA/Processing 
---------------------------------

In this project we have to translate Wolof sentences to their French counterpart and French sentences to Wolof. We are, in particularly, treating a book, *L'Africain*, written by the rewarded `Jean-Marie Gustave Le Clézio` and the traduced version in Wolof of this book written by `Daouda Ndiaye`. L'Africain is available at this site [L_africain](https://www.babelio.com/livres/Le-Clezio-LAfricain/11094). 

The first thing to do is to extract the texts in order to verify which Machine learning model and technics are more accurate for our project. The extraction will be done as follows:
- ~~Transform pdf files to their text formats: We must extract the contents of the files using [PDFElement](https://pdf.wondershare.net/fr/?gclid=Cj0KCQjwuLShBhC_ARIsAFod4fK-9pyDwLQmwNJYiw0CjsIXCMtvOX9iizTLLYpu52d6Qml12VkAKB0aAqMjEALw_wcB) because we cannot process texts directly from the pdf files with python.~~
- Recuperate the texts: We will recuperate the texts in the text files and print them to see what they seem. ✅
- Number of letters in each corpus: We will print the number of elements (letters in that case) in each corpus (french version and wolof version). ✅
- Print more clearly the texts and identify the sentences that are not interesting in a first view. ✅
- Identify paragraphs and sentences separately in each corpus.


Let us install and import all necessary libraries.

In [2]:
# # installations
# !pip install -e ok-nlp-project --quiet
# !pip install -e custom-rnn --quiet
# !pip install spacy --quiet
# !python -m spacy download fr_core_news_lg --quiet
# !python -m spacy download fr_core_news_md --quiet

In [3]:
# importations
import re
import spacy
import nltk
import pandas as pd

  from .autonotebook import tqdm as notebook_tqdm


### Recuperate the contents and first visualization

Let's recuperate, bellow, the texts.

- French version

In [4]:
with open('data/LECLEZIO_LAfricain FR en français Lamine BOUSSO.txt', encoding='utf-8') as f:

    french_version = f.read()

In [5]:
french_version

'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 2  (Noir/Process Black film)\n\nCouverture : lettrage de Pierre Alechinsky.\n\n© Mercure de France, 2004.\n\n\nLe Clézio.mep.DG.qxd 16/02/04 12:11 Page 3  (Noir/Process Black film)\n\nTraits et portraits\n\nCollection dirigée\npar Colette Fellous\n\n\nLe Clézio.mep.DG.qxd 16/02/04 12:11 Page 4  (Noir/Process Black film)\n\n\nLe Clézio.mep.DG.qxd 16/02/04 12:11 Page 5  (Noir/Process Black film)\n\nJ.M.G. LE CLÉZIO\n\nL’Africain\n\nM E R C V R E  D E  F R A N C E \n\n\nLe Clézio.mep.DG.qxd 16/02/04 12:11 Page 7  (Noir/Process Black film)\n\nTout être humain est le résultat d’un père et une mère. On\npeut ne pas les reconnaître, ne pas les aimer, on peut douter\nd’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs\nmanières et leurs manies, leurs illusions, leurs espoirs, la\nforme de leurs mains et de leurs doigts de pied, la couleur\nde leurs yeux et de leurs cheveux, leur façon de parler, leurs\npensées, probablement l’âge de leur 

- Wolof version

In [6]:
with open('data/Baay sama e1 pl  Le Clézio première partie.txt', encoding='utf-8') as f:

    wolof_version = f.read()

In [7]:
wolof_version

'baay sama e1_litt 16/02/16 17:42 Page1\n\n\nbaay sama e1_litt 16/02/16 17:42 Page2\n\nBaay sama, doomu Afrig\n\n\nbaay sama e1_litt 16/02/16 17:42 Page4\n\n\nci njiiteefU BOUBACAR BORis Diop\n\nmaRiama BÂ\n\nBataaxal bu gudde nii\n\naimé césaiRe\n\nNawetu deret\n\njean-maRie GUSTAve le clézio\n\nBaay sama, doomu Afrig\n\nJ E A N - M A R I E G U S T A V E L E C L É Z I O\n\nB A A Y  S A M A ,\nD O O M U  A F R I G\n\nCi tekkim\nDaouda Ndiaye\n\ncéytU\n\n\nbaay sama e1_litt 16/02/16 17:42 Page6\n\n\nTitre original : L’Africain.\n\n© Éditions Mercure de France, 2004.\n\n© Zulma et Mémoire d’encrier, 2016, pour la présente édition.\n\nwww.ceytu.fr\n\nDoomu-aadama bu, ne ci ndey ak baay nga jóge.\nMënunu leen a baň a gërëm ak a bëgg, doonte sax\nmën nanoo am xel ňaar ci ňoom. Waaye ňu ngi\nfi, ak seen xar-kanam, seen taxawaay, seen defin\nak seen jikko, seeni njuumte, seeni yaakaar, seen\nmelokaanu loxook baaraami tànk, seen meloy bët\nak karaw, seen waxin, seeni xalaat, amaana sax at ma\

### Number of letters

Let us print the number of letters in each corpus.

In [8]:
# number of letters in the french corpus
len(french_version)

147420

In [9]:
# number of letters in the wolof corpus
len(wolof_version)

133095

We don't have the same number of letters for the two different corpora. 

### General visualization 

Let us visualize the corpora in the text editor and identify the group of words that are not part of the main subject of the books.

- French version 

In [10]:
print(french_version[:1000])

Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 2  (Noir/Process Black film)

Couverture : lettrage de Pierre Alechinsky.

© Mercure de France, 2004.


Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 3  (Noir/Process Black film)

Traits et portraits

Collection dirigée
par Colette Fellous


Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 4  (Noir/Process Black film)


Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 5  (Noir/Process Black film)

J.M.G. LE CLÉZIO

L’Africain

M E R C V R E  D E  F R A N C E 


Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 7  (Noir/Process Black film)

Tout être humain est le résultat d’un père et une mère. On
peut ne pas les reconnaître, ne pas les aimer, on peut douter
d’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs
manières et leurs manies, leurs illusions, leurs espoirs, la
forme de leurs mains et de leurs doigts de pied, la couleur
de leurs yeux et de leurs cheveux, leur façon de parler, leurs
pensées, probablement l’âge de leur mort, tout cela est passé
en nous.



For the french version we have a beginning and a ending that contain not interesting information like illustrations, author presentation, edition, year, title, that don't interest us. Let us separate the corpus by line and remove those bellow the position 30 and above the position 3108. 

In [11]:
# separate french corpus by line
french_version_lines = french_version.split("\n")

In [12]:
# recuperate the content of interest
french_version_v1 = french_version_lines[29:3108]

Let us print the first and last lines of the new corpus.

In [13]:
french_version_v1[0], french_version_v1[-1]

('Tout être humain est le résultat d’un père et une mère. On',
 'à l’instant où je suis né.')

We must also identify the lines surrounded by blanks which can be the number of the pages, the chapter titles or the pages' footers. We must also identify their lengths and if they contain number in order to compare them. 

In [14]:
def identify_blank_srd(lines, regex_search = r'\d'):
    
    suspected_lines = []
    
    for i in range(1, len(lines) - 1):
        
        if lines[i-1] == '' and lines[i+1] == '':
            
            line = lines[i].strip()
            
            suspected_lines.append((line, len(line), bool(re.search(regex_search, line))))
    
    return suspected_lines

# recuperated suspected lines
suspect_lines = identify_blank_srd(french_version_v1)

In [15]:
# print the suspect lines
suspect_lines

[('7', 1, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 9  (Noir/Process Black film)',
  69,
  True),
 ('Le corps', 8, False),
 ('9', 1, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 10  (Noir/Process Black film)',
  70,
  True),
 ('10', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 11  (Noir/Process Black film)',
  70,
  True),
 ('Le corps', 8, False),
 ('11', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 12  (Noir/Process Black film)',
  70,
  True),
 ('12', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 13  (Noir/Process Black film)',
  70,
  True),
 ('Le corps', 8, False),
 ('13', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 14  (Noir/Process Black film)',
  70,
  True),
 ('14', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 15  (Noir/Process Black film)',
  70,
  True),
 ('Le corps', 8, False),
 ('15', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 16  (Noir/Process Black film)',
  70,
  True),
 ('16', 2, True),
 ('Le Clézio.

Let's recuperate the chapters which are the texts with no digit(s) in the suspect lines.

In [16]:
chapters = [s[0] for s in suspect_lines if s[1] <= 24 and not s[2]]

# print the chapters of the french version of the book
chapters

['Le corps',
 'Le corps',
 'Le corps',
 'Le corps',
 'Le corps',
 'Le corps',
 'Le corps',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'L’Africain',
 'L’Africain',
 'L’Africain',
 'L’Africain',
 'L’Africain',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'Banso*',
 '* Aujourd’hui : Kumbo.',
 'Banso',
 'Banso',
 'Banso',
 'Ogoja de rage',
 'Ogoja de rage',
 'Ogoja de rage',
 'Ogoja de rage',
 'Ogoja de rage',
 'Ogoja de rage',
 'L’oubli',
 'L’oubli',
 'L’oubli',
 'L’oubli',
 'L’oubli',
 'L’oubli',
 'L’Africain']

Some lines cannot be removed since they are part of the main text. Those lines have a length greater than 24 and don't contain numbers according to our visual interpretation. Let us delete those lines from the suspected lines.

In [17]:
# remove non suspect lines
suspect_lines = [s[0] for s in suspect_lines if s[1] <= 24 or s[2]]

In [18]:
# print the rest of the suspect lines
suspect_lines

['7',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 9  (Noir/Process Black film)',
 'Le corps',
 '9',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 10  (Noir/Process Black film)',
 '10',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 11  (Noir/Process Black film)',
 'Le corps',
 '11',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 12  (Noir/Process Black film)',
 '12',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 13  (Noir/Process Black film)',
 'Le corps',
 '13',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 14  (Noir/Process Black film)',
 '14',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 15  (Noir/Process Black film)',
 'Le corps',
 '15',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 16  (Noir/Process Black film)',
 '16',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 17  (Noir/Process Black film)',
 'Le corps',
 '17',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 18  (Noir/Process Black film)',
 '18',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 19  (Noir/Process Black film)',
 'Le corps',
 '19',
 'Le Clézio.mep.

Let's transform the corpus to a `pandas Series` in order to remove the suspect lines. We will do the same for the chapters.


In [19]:
# recuperate the corpus as a pandas Series
french_version_v2 = pd.Series(french_version_v1).map(str.strip)

# change the name of the Series to "french_corpus"
french_version_v2.name = "french_corpus"

# remove suspect lines
french_version_v2 = french_version_v2[~french_version_v2.isin(suspect_lines)]

# transform the chapters from list to pandas Series
chapters = pd.Series(chapters, name="chapters").drop_duplicates()


In [20]:
# print the chapters
chapters

0                     Le corps
7      Termites, fourmis, etc.
15                  L’Africain
20    De Georgetown à Victoria
28                      Banso*
29      * Aujourd’hui : Kumbo.
30                       Banso
33               Ogoja de rage
39                     L’oubli
Name: chapters, dtype: object

In [21]:
# remove citations at the foots
chapters.drop(index = [28, 29], inplace=True)

Let's display the first 100 lines of the corpus.

In [22]:
pd.options.display.max_rows = 100

french_version_v2.head(100)

0      Tout être humain est le résultat d’un père et ...
1      peut ne pas les reconnaître, ne pas les aimer,...
2      d’eux. Mais ils sont là, avec leur visage, leu...
3      manières et leurs manies, leurs illusions, leu...
4      forme de leurs mains et de leurs doigts de pie...
5      de leurs yeux et de leurs cheveux, leur façon ...
6      pensées, probablement l’âge de leur mort, tout...
7                                               en nous.
8                                                       
9      J’ai longtemps rêvé que ma mère était noire. J...
10     inventé une histoire, un passé, pour fuir la r...
11     retour d’Afrique, dans ce pays, dans cette vil...
12     connaissais personne, où j’étais devenu un étr...
13     découvert, lorsque mon père, à l’âge de la ret...
14     vivre avec nous en France, que c’était lui l’A...
15     été difficile à admettre. Il m’a fallu retourn...
16     recommencer, essayer de comprendre. En souveni...
17                            j

- Wolof version

In [23]:
print(wolof_version[:1000])

baay sama e1_litt 16/02/16 17:42 Page1


baay sama e1_litt 16/02/16 17:42 Page2

Baay sama, doomu Afrig


baay sama e1_litt 16/02/16 17:42 Page4


ci njiiteefU BOUBACAR BORis Diop

maRiama BÂ

Bataaxal bu gudde nii

aimé césaiRe

Nawetu deret

jean-maRie GUSTAve le clézio

Baay sama, doomu Afrig

J E A N - M A R I E G U S T A V E L E C L É Z I O

B A A Y  S A M A ,
D O O M U  A F R I G

Ci tekkim
Daouda Ndiaye

céytU


baay sama e1_litt 16/02/16 17:42 Page6


Titre original : L’Africain.

© Éditions Mercure de France, 2004.

© Zulma et Mémoire d’encrier, 2016, pour la présente édition.

www.ceytu.fr

Doomu-aadama bu, ne ci ndey ak baay nga jóge.
Mënunu leen a baň a gërëm ak a bëgg, doonte sax
mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi
fi, ak seen xar-kanam, seen taxawaay, seen defin
ak seen jikko, seeni njuumte, seeni yaakaar, seen
melokaanu loxook baaraami tànk, seen meloy bët
ak karaw, seen waxin, seeni xalaat, amaana sax at ma
ňuy nar a génne àddina. Loolu lépp, day àgg fu sore
ci

Like with the french version the beginning and the ending of the book contain not interesting information and must be removed. We will separate the corpus by lines and those between the $48^{th}$ line and the $3298^{th}$ line. But before that let's recuperate the chapters' titles which are part of the ending (from line $3306$ to line $3315$).

In [24]:
# separate wolof corpus by line
wolof_version_lines = wolof_version.split("\n")

In [25]:
# recuperate chapters' titles
chapters_w = [ch.strip() for ch in wolof_version_lines[3305:3315] if ch != '']

In [26]:
chapters_w

['Yaramu doom-aadama',
 'Max, mellentaan ak ñoom seen',
 'Doomu Afrig',
 'Dale ko Sorstaawun ba Wiktoryaa',
 'Bansoo',
 'Ogosaak xoñoñ',
 'La woon wonni na']

In [27]:
# recuperate the content of interest
wolof_version_v1 = wolof_version_lines[47:3298]

Let us print the first and last lines of the new corpus.

In [28]:
wolof_version_v1[0], wolof_version_v1[-1]

('Doomu-aadama bu, ne ci ndey ak baay nga jóge.',
 'loxoom, boq ma ci bés bi ma ganesee dunyaa.')

Let us recuperate the lines surrounded by blanks with their information.

In [29]:
# recuperated suspected lines
suspect_lines_w = identify_blank_srd(wolof_version_v1)

# print the suspect_lines in the wolof corpus
suspect_lines_w

[('~ 7 ~', 5, True),
 ('baay sama e1_litt 16/02/16 17:42 Page8', 38, True),
 ('Yaramu doom-aadama', 18, False),
 ('~ 8 ~                                        ~ 9 ~', 50, True),
 ('baay sama e1_litt 16/02/16 17:42 Page10', 39, True),
 ('Ca Afrig, ňàkk kersag yaram yi lu yéemoon na', 44, False),
 ('~ 10 ~', 6, True),
 ('Sooy dugg Óbudu, dangay won àll bi ginnaaw.', 43, False),
 ('~ 11 ~', 6, True),
 ('baay sama e1_litt 16/02/16 17:42 Page12', 39, True),
 ('« Ndax kii dafa tawat ? » – mu ngi ma topp ba tey', 49, False),
 ('~ 12 ~', 6, True),
 ('~ 13 ~', 6, True),
 ('baay sama e1_litt 16/02/16 17:42 Page14', 39, True),
 ('Ogosaa, kenn naju fa kenn di ko teree noyyi te', 46, False),
 ('~ 14 ~', 6, True),
 ('Du ñàkk ñu ni, aa, ñii kat seen nekkin ca Nise-', 47, False),
 ('~ 15 ~', 6, True),
 ('baay sama e1_litt 16/02/16 17:42 Page16', 39, True),
 ('Ogosaa, leneen la woon. Doole ja mu ma daan', 43, False),
 ('~ 16 ~', 6, True),
 ('~ 17 ~', 6, True),
 ('baay sama e1_litt 16/02/16 17:42 Page1

The lines being parts of the main text doesn't contain number. So let's separate the suspect lines between those containing number(s) and those don't containing number(s).

In [30]:
suspect_w_n = [s[0] for s in suspect_lines_w if s[2]]
suspect_w_no_n = [s for s in suspect_lines_w if not s[2]]

In [31]:
# print the suspect lines with no digits in them
suspect_w_no_n

[('Yaramu doom-aadama', 18, False),
 ('Ca Afrig, ňàkk kersag yaram yi lu yéemoon na', 44, False),
 ('Sooy dugg Óbudu, dangay won àll bi ginnaaw.', 43, False),
 ('« Ndax kii dafa tawat ? » – mu ngi ma topp ba tey', 49, False),
 ('Ogosaa, kenn naju fa kenn di ko teree noyyi te', 46, False),
 ('Du ñàkk ñu ni, aa, ñii kat seen nekkin ca Nise-', 47, False),
 ('Ogosaa, leneen la woon. Doole ja mu ma daan', 43, False),
 ('Tugal soof ma. Ogosaa jommal ma, daanaka am', 43, False),
 ('Max, mellentaan ak ñoom seen', 28, False),
 ('Waaye xale bu ndaw laa booba, dooley Àngalteer', 46, False),
 ('Biñ yeggee ci diggu joor gi, sori lool sunu kër,', 48, False),
 ('Miin kon naa gis-gis boobu ba duma ko soxlaa fat', 48, False),
 ('ba koy fàtte.', 13, False),
 ('puso bu ñu soos ci alkol.', 25, False),
 ('Xew-xew boobu, ñaata yoon laa dégg sama yaay', 44, False),
 ('Loolu, ay waxi mag kese la woon ci nn. Nun xale', 47, False),
 ('Dina ma jafe tey ma wax lu nu doon tax a def', 44, False),
 ('Doomu Afrig', 1

Only the chapters (that we recuperated) are not interesting in the above list.

Let us transform the corpus to a `pandas Series` in order to remove the suspect lines and the chapters. 


In [32]:
# recuperate the wolof corpus as a pandas Series
wolof_version_v2 = pd.Series(wolof_version_v1).map(str.strip)

# change the name of the Series to "wolof_corpus"
wolof_version_v2.name = "wolof_corpus"

# remove suspect lines
wolof_version_v2 = wolof_version_v2[~wolof_version_v2.isin(suspect_w_n)]

# remove chapters
wolof_version_v2 = wolof_version_v2[~wolof_version_v2.isin(chapters)]


Let's display the first 100 lines of the corpus.

In [33]:
pd.options.display.max_rows = 100

wolof_version_v2.head(100)

0          Doomu-aadama bu, ne ci ndey ak baay nga jóge.
1        Mënunu leen a baň a gërëm ak a bëgg, doonte sax
2            mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi
3       fi, ak seen xar-kanam, seen taxawaay, seen defin
4      ak seen jikko, seeni njuumte, seeni yaakaar, seen
5         melokaanu loxook baaraami tànk, seen meloy bët
6      ak karaw, seen waxin, seeni xalaat, amaana sax...
7      ňuy nar a génne àddina. Loolu lépp, day àgg fu...
8                                                ci nun.
9                                                       
10              Bi ma delloo dëkk ba ma juddoo, dama faa
11     meloon ni gan. Du kenn ku ma fa xam, safatul dara
12     ci man. Li nu jóge Afrig jur ci man tiis wu ré...
13           ma yaboo sax ni mënuma woon a nangu ni maak
14         samay way-jur dëkkëtuñu Niseryaa. Ca laa tàm-
15     balee gént ni sama yaay nit ku ñuul la, di sàk...
16         sama bopp cosaan lu bees. Àddinay dox ba Baay
17      tollu ci noppalug liggé

Let us save the first and second version of the corpora.

In [34]:
pd.DataFrame(french_version_v1).to_csv('data/extractions/new_data/french_version_v1.csv', index=False)
pd.DataFrame(french_version_v2).to_csv('data/extractions/new_data/french_version_v2.csv', index=False)
pd.DataFrame(wolof_version_v1).to_csv('data/extractions/new_data/wolof_version_v1.csv', index=False)
pd.DataFrame(wolof_version_v2).to_csv('data/extractions/new_data/wolof_version_v2.csv', index=False)

### Identify the documents

#### Document as sentence

Firstly, let us consider the documents to be the sentences in the corpora. On another word we consider that the necessary contexts are in the sentences. Later we will consider that to find the context of a speech we must consider all the paragraph and not just the sentences. But let us consider for the moment the most simple case. 

We know that the wolof corpus is an translation of the french corpus so we normally obtain the same number of sentences for the two corpora. Let us print the number of lines in each corpus.

In [35]:
# number of lines in the french corpus
french_version_v2.shape[0]

2858

In [36]:
# number of lines in the wolof corpus
wolof_version_v2.shape[0]

3107

It seems that the french corpus contains more reliable lines. In other words it contains less number of faulty separations between the lines. The wolof corpus can contain blank(s) between multiple parts of the same paragraph. We will treat the french version in order to correct the wolof version for more simplicity.

- French version

Let us reconvert the french corpus to a list.

In [37]:
# reconvert the french corpus to a list
french_version_v3 = french_version_v2.to_list()

Let us treat the french corpus as one document.

In [38]:
# reconvert corpus to text
french_text = " ".join(french_version_v3)

In [39]:
french_text

'Tout être humain est le résultat d’un père et une mère. On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous.  J’ai longtemps rêvé que ma mère était noire. Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger. Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain. Cela a été difficile à admettre. Il m’a fallu retourner en arrière, recommencer, essayer de comprendre. En souvenir de cela, j’ai écrit ce petit livre.      De ce visage que j’ai reçu à ma naissance, j

We can use `spacy` to obtain the different sentences of the text. We will use the large french model.

In [40]:
# import the french nlp model from spacy
french_nlp = spacy.load('fr_core_news_lg')

Let us give the text to the model.

In [41]:
# recuperate the document
doc = french_nlp(french_text)

Let us print the length of the document.

In [42]:
len(doc)

28486

It identified **28486** tokens. For the moment we want only the sentences so let us recuperate them with the `sents` object.

In [43]:
french_sentences = doc.sents

Let us print the number of identified sentences.

In [44]:
# transform sentences from generator to list
french_sentences = list(french_sentences)

len(french_sentences)

1051

It identified `1051` sentences. Let us print the 100 first sentences.

In [45]:
french_sentences[:100]

[Tout être humain,
 est le résultat d’un père et une mère.,
 On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux.,
 Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous.  ,
 J’ai longtemps rêvé que ma mère était noire.,
 Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger.,
 Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain.,
 Cela a été difficile à admettre.,
 Il m’a fallu retourner en arrière, recommencer, essayer de comprendre.,
 En souvenir de cela, j’ai écrit ce petit livre.      ,
 De ce visage que j’ai 

Some of the sentences are not correctly identified. We must identify the sentences ourselves:

- Firstly, we must recuperate again the whole text from the list but at this time separating by line breaks. 
- Secondly, Identify the words ending with "-" + "\n" which are words separated in two parts where the second part is in the beginning of the next line.
- Thirdly, use the text with no line breaks to recombine the identified words.
- Fourthly, delete the too much spaces. 
- Fifthly, identify what can identify a sentence in the text.
- Sixthly, use the sentences' characteristics to recuperate them.
- Seventy, we can also try to use the spacy methods to obtain a more accurate separation.

Let us recuperate the original text.

In [46]:
# reconvert corpus to text
french_text_break = "\n".join(french_version_v3)

In [47]:
french_text_break

'Tout être humain est le résultat d’un père et une mère. On\npeut ne pas les reconnaître, ne pas les aimer, on peut douter\nd’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs\nmanières et leurs manies, leurs illusions, leurs espoirs, la\nforme de leurs mains et de leurs doigts de pied, la couleur\nde leurs yeux et de leurs cheveux, leur façon de parler, leurs\npensées, probablement l’âge de leur mort, tout cela est passé\nen nous.\n\nJ’ai longtemps rêvé que ma mère était noire. Je m’étais\ninventé une histoire, un passé, pour fuir la réalité à mon\nretour d’Afrique, dans ce pays, dans cette ville où je ne\nconnaissais personne, où j’étais devenu un étranger. Puis j’ai\ndécouvert, lorsque mon père, à l’âge de la retraite, est revenu\nvivre avec nous en France, que c’était lui l’Africain. Cela a\nété difficile à admettre. Il m’a fallu retourner en arrière,\nrecommencer, essayer de comprendre. En souvenir de cela,\nj’ai écrit ce petit livre.\n\n\n\n\n\nDe ce visage que j’ai

Let us recuperate the word separated in two parts by "-".

In [95]:
def recuperate_break_words(text):
    
    text_words = text.split(" ")
    
    break_word = []
    
    for word in text_words:
        
        if "-\n" in word:
            
            break_word.append(word)
    
    return break_word

break_words = recuperate_break_words(french_text_break)

In [96]:
break_words

['unique-\nment',
 'aujour-\nd’hui',
 'l’efface-\nment',
 'l’ap-\nparition',
 'admi-\nrable,',
 'étran-\n\n\n\n\n\ngement,',
 'ques-\ntion',
 'souf-\nflet.',
 'sarco-\nphage',
 'abri-\ntait',
 'puis-\nqu’un',
 'l’hô-\npital',
 'ruis-\nseaux',
 'qu’en-\nvahissaient,',
 'grand-\nmère,',
 'kilo-\nmètre,',
 'l’en-\n\n\n\n\nthousiasme.',
 'recon-\nnais',
 'particuliè-\nrement',
 's’in-\ncliner',
 'complète-\nment',
 'flam-\nboyants,',
 'puis-\nsance',
 'souve-\nnais',
 'forte-\nresses',
 'mousti-\nquaire.',
 'poussié-\nreuses',
 'm’in-\ndifférait',
 'chaus-\nsettes',
 'l’éduca-\ntion',
 'compen-\nsation',
 'aven-\n\nturés,',
 'l’in-\nterdiction',
 'j’ima-\ngine',
 'l’après-\nmidi,',
 'l’ar-\ngent,',
 'chapar-\ndaient,',
 'enva-\nhissait',
 'd’an-\ntennes',
 'm’em-\nporte',
 'guer-\nrières',
 'nais-\nsance,',
 'dévo-\nrant,',
 'exer-\ncice',
 'regar-\ndions',
 'scor-\npions',
 'agres-\nsait.',
 'inévi-\ntables,',
 'drama-\ntique,',
 'aujour-\n\n\n\n\n\nd’hui.',
 'scor-\npion',
 'parfai-\ntem

The following words are actually composed of "-" so we will delete only the break line in them.

In [97]:
words_with_hyphen = ["grand-mère", "l’après-midi", "demi-siècle", "Peut-être", "demi-lune", 
                     "Pont-l’Abbé", "l’anglo-hollandaise"]

In [98]:
# correction of the broken words
for i, word in enumerate(break_words):
    
    word = "".join(word.split("\n"))
    
    if not word in words_with_hyphen:
        
        word = word.replace("-", "")
    
    break_words[i] = word

In [99]:
re.sub("\n", "", "a\n")

'a'

In [100]:
break_words

['uniquement',
 'aujourd’hui',
 'l’effacement',
 'l’apparition',
 'admirable,',
 'étrangement,',
 'question',
 'soufflet.',
 'sarcophage',
 'abritait',
 'puisqu’un',
 'l’hôpital',
 'ruisseaux',
 'qu’envahissaient,',
 'grandmère,',
 'kilomètre,',
 'l’enthousiasme.',
 'reconnais',
 'particulièrement',
 's’incliner',
 'complètement',
 'flamboyants,',
 'puissance',
 'souvenais',
 'forteresses',
 'moustiquaire.',
 'poussiéreuses',
 'm’indifférait',
 'chaussettes',
 'l’éducation',
 'compensation',
 'aventurés,',
 'l’interdiction',
 'j’imagine',
 'l’aprèsmidi,',
 'l’argent,',
 'chapardaient,',
 'envahissait',
 'd’antennes',
 'm’emporte',
 'guerrières',
 'naissance,',
 'dévorant,',
 'exercice',
 'regardions',
 'scorpions',
 'agressait.',
 'inévitables,',
 'dramatique,',
 'aujourd’hui.',
 'scorpion',
 'parfaitement',
 'audessus',
 'rassurant',
 'endormissantes',
 'territoires',
 'équatorial,',
 'l’impossibilité',
 'insoutenable,',
 'résignation',
 'autoritaire,',
 'existait',
 'coloniale,',
 'p