Text Extraction and Part 1 of EDA/Processing 
---------------------------------

In this project we have to translate Wolof sentences to their French counterpart and French sentences to Wolof. We are, in particularly, treating a book, *L'Africain*, written by the rewarded `Jean-Marie Gustave Le Clézio` and the traduced version in Wolof of this book written by `Daouda Ndiaye`. L'Africain is available at this site [L_africain](https://www.babelio.com/livres/Le-Clezio-LAfricain/11094). 

The first thing to do is to extract the texts in order to verify which Machine learning model and technics are more accurate for our project. The extraction will be done as follows:
- ~~Transform pdf files to their text formats: We must extract the contents of the files using [PDFElement](https://pdf.wondershare.net/fr/?gclid=Cj0KCQjwuLShBhC_ARIsAFod4fK-9pyDwLQmwNJYiw0CjsIXCMtvOX9iizTLLYpu52d6Qml12VkAKB0aAqMjEALw_wcB) because we cannot process texts directly from the pdf files with python.~~
- Recuperate the texts: We will recuperate the texts in the text files and print them to see what they seem. ✅
- Number of letters in each corpus: We will print the number of elements (letters in that case) in each corpus (french version and wolof version). ✅
- Print more clearly the texts and identify the sentences that are not interesting in a first view. ✅
- Identify paragraphs and sentences separately in each corpus. ✅
- Add manual corrections on the corpora if necessary. ✅ 
- Save the corpora. ✅ 


Let us install and import all necessary libraries.

In [159]:
# # installations
# !pip install -e ok-nlp-project --quiet
# !pip install -e custom-rnn --quiet
# !pip install spacy --quiet
# !python -m spacy download fr_core_news_lg --quiet
# !python -m spacy download fr_core_news_md --quiet

In [1]:
# importations
import re
import spacy
import nltk
import pandas as pd
from typing import *

  from .autonotebook import tqdm as notebook_tqdm


### Recuperate the contents and first visualization

Let's recuperate, bellow, the texts.

- French version

In [161]:
with open('data/LECLEZIO_LAfricain FR en français Lamine BOUSSO.txt', encoding='utf-8') as f:

    french_version = f.read()

In [162]:
french_version

'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 2  (Noir/Process Black film)\n\nCouverture : lettrage de Pierre Alechinsky.\n\n© Mercure de France, 2004.\n\n\nLe Clézio.mep.DG.qxd 16/02/04 12:11 Page 3  (Noir/Process Black film)\n\nTraits et portraits\n\nCollection dirigée\npar Colette Fellous\n\n\nLe Clézio.mep.DG.qxd 16/02/04 12:11 Page 4  (Noir/Process Black film)\n\n\nLe Clézio.mep.DG.qxd 16/02/04 12:11 Page 5  (Noir/Process Black film)\n\nJ.M.G. LE CLÉZIO\n\nL’Africain\n\nM E R C V R E  D E  F R A N C E \n\n\nLe Clézio.mep.DG.qxd 16/02/04 12:11 Page 7  (Noir/Process Black film)\n\nTout être humain est le résultat d’un père et une mère. On\npeut ne pas les reconnaître, ne pas les aimer, on peut douter\nd’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs\nmanières et leurs manies, leurs illusions, leurs espoirs, la\nforme de leurs mains et de leurs doigts de pied, la couleur\nde leurs yeux et de leurs cheveux, leur façon de parler, leurs\npensées, probablement l’âge de leur 

- Wolof version

In [163]:
with open('data/Baay sama e1 pl  Le Clézio première partie.txt', encoding='utf-8') as f:

    wolof_version = f.read()

In [164]:
wolof_version

'baay sama e1_litt 16/02/16 17:42 Page1\n\n\nbaay sama e1_litt 16/02/16 17:42 Page2\n\nBaay sama, doomu Afrig\n\n\nbaay sama e1_litt 16/02/16 17:42 Page4\n\n\nci njiiteefU BOUBACAR BORis Diop\n\nmaRiama BÂ\n\nBataaxal bu gudde nii\n\naimé césaiRe\n\nNawetu deret\n\njean-maRie GUSTAve le clézio\n\nBaay sama, doomu Afrig\n\nJ E A N - M A R I E G U S T A V E L E C L É Z I O\n\nB A A Y  S A M A ,\nD O O M U  A F R I G\n\nCi tekkim\nDaouda Ndiaye\n\ncéytU\n\n\nbaay sama e1_litt 16/02/16 17:42 Page6\n\n\nTitre original : L’Africain.\n\n© Éditions Mercure de France, 2004.\n\n© Zulma et Mémoire d’encrier, 2016, pour la présente édition.\n\nwww.ceytu.fr\n\nDoomu-aadama bu, ne ci ndey ak baay nga jóge.\nMënunu leen a baň a gërëm ak a bëgg, doonte sax\nmën nanoo am xel ňaar ci ňoom. Waaye ňu ngi\nfi, ak seen xar-kanam, seen taxawaay, seen defin\nak seen jikko, seeni njuumte, seeni yaakaar, seen\nmelokaanu loxook baaraami tànk, seen meloy bët\nak karaw, seen waxin, seeni xalaat, amaana sax at ma\

### Number of letters

Let us print the number of letters in each corpus.

In [165]:
# number of letters in the french corpus
len(french_version)

147420

In [166]:
# number of letters in the wolof corpus
len(wolof_version)

133095

We don't have the same number of letters for the two different corpora. 

### General visualization 

Let us visualize the corpora in the text editor and identify the group of words that are not part of the main subject of the books.

- French version 

In [167]:
print(french_version[:1000])

Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 2  (Noir/Process Black film)

Couverture : lettrage de Pierre Alechinsky.

© Mercure de France, 2004.


Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 3  (Noir/Process Black film)

Traits et portraits

Collection dirigée
par Colette Fellous


Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 4  (Noir/Process Black film)


Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 5  (Noir/Process Black film)

J.M.G. LE CLÉZIO

L’Africain

M E R C V R E  D E  F R A N C E 


Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 7  (Noir/Process Black film)

Tout être humain est le résultat d’un père et une mère. On
peut ne pas les reconnaître, ne pas les aimer, on peut douter
d’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs
manières et leurs manies, leurs illusions, leurs espoirs, la
forme de leurs mains et de leurs doigts de pied, la couleur
de leurs yeux et de leurs cheveux, leur façon de parler, leurs
pensées, probablement l’âge de leur mort, tout cela est passé
en nous.



For the french version we have a beginning and a ending that contain not interesting information like illustrations, author presentation, edition, year, title, that don't interest us. Let us separate the corpus by line and remove those bellow the position 30 and above the position 3108. 

In [168]:
# separate french corpus by line
french_version_lines = french_version.split("\n")

In [169]:
# recuperate the content of interest
french_version_v1 = french_version_lines[29:3108]

Let us print the first and last lines of the new corpus.

In [170]:
french_version_v1[0], french_version_v1[-1]

('Tout être humain est le résultat d’un père et une mère. On',
 'à l’instant où je suis né.')

We must also identify the lines surrounded by blanks which can be the number of the pages, the chapter titles or the pages' footers. We must also identify their lengths and if they contain number in order to compare them. 

In [171]:
def identify_blank_srd(lines, regex_search = r'\d'):
    
    suspected_lines = []
    
    for i in range(1, len(lines) - 1):
        
        if lines[i-1] == '' and lines[i+1] == '':
            
            line = lines[i].strip()
            
            suspected_lines.append((line, len(line), bool(re.search(regex_search, line))))
    
    return suspected_lines

# recuperated suspected lines
suspect_lines = identify_blank_srd(french_version_v1)

In [172]:
# print the suspect lines
suspect_lines

[('7', 1, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 9  (Noir/Process Black film)',
  69,
  True),
 ('Le corps', 8, False),
 ('9', 1, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 10  (Noir/Process Black film)',
  70,
  True),
 ('10', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 11  (Noir/Process Black film)',
  70,
  True),
 ('Le corps', 8, False),
 ('11', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 12  (Noir/Process Black film)',
  70,
  True),
 ('12', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 13  (Noir/Process Black film)',
  70,
  True),
 ('Le corps', 8, False),
 ('13', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 14  (Noir/Process Black film)',
  70,
  True),
 ('14', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 15  (Noir/Process Black film)',
  70,
  True),
 ('Le corps', 8, False),
 ('15', 2, True),
 ('Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 16  (Noir/Process Black film)',
  70,
  True),
 ('16', 2, True),
 ('Le Clézio.

Let's recuperate the chapters which are the texts with no digit(s) in the suspect lines.

In [173]:
chapters = [s[0] for s in suspect_lines if s[1] <= 24 and not s[2]]

# print the chapters of the french version of the book
chapters

['Le corps',
 'Le corps',
 'Le corps',
 'Le corps',
 'Le corps',
 'Le corps',
 'Le corps',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'Termites, fourmis, etc.',
 'L’Africain',
 'L’Africain',
 'L’Africain',
 'L’Africain',
 'L’Africain',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'De Georgetown à Victoria',
 'Banso*',
 '* Aujourd’hui : Kumbo.',
 'Banso',
 'Banso',
 'Banso',
 'Ogoja de rage',
 'Ogoja de rage',
 'Ogoja de rage',
 'Ogoja de rage',
 'Ogoja de rage',
 'Ogoja de rage',
 'L’oubli',
 'L’oubli',
 'L’oubli',
 'L’oubli',
 'L’oubli',
 'L’oubli',
 'L’Africain']

Some lines cannot be removed since they are part of the main text. Those lines have a length greater than 24 and don't contain numbers according to our visual interpretation. Let us delete those lines from the suspected lines.

In [174]:
# remove non suspect lines
suspect_lines = [s[0] for s in suspect_lines if s[1] <= 24 or s[2]]

In [175]:
# print the rest of the suspect lines
suspect_lines

['7',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 9  (Noir/Process Black film)',
 'Le corps',
 '9',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 10  (Noir/Process Black film)',
 '10',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 11  (Noir/Process Black film)',
 'Le corps',
 '11',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 12  (Noir/Process Black film)',
 '12',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 13  (Noir/Process Black film)',
 'Le corps',
 '13',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 14  (Noir/Process Black film)',
 '14',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 15  (Noir/Process Black film)',
 'Le corps',
 '15',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 16  (Noir/Process Black film)',
 '16',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 17  (Noir/Process Black film)',
 'Le corps',
 '17',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 18  (Noir/Process Black film)',
 '18',
 'Le Clézio.mep.DG.qxd 16/02/04 12:11 Page 19  (Noir/Process Black film)',
 'Le corps',
 '19',
 'Le Clézio.mep.

Let's transform the corpus to a `pandas Series` in order to remove the suspect lines. We will do the same for the chapters.


In [176]:
# recuperate the corpus as a pandas Series
french_version_v2 = pd.Series(french_version_v1).map(str.strip)

# change the name of the Series to "french_corpus"
french_version_v2.name = "french_corpus"

# remove suspect lines
french_version_v2 = french_version_v2[~french_version_v2.isin(suspect_lines)]

# transform the chapters from list to pandas Series
chapters = pd.Series(chapters, name="chapters").drop_duplicates()


In [177]:
# print the chapters
chapters

0                     Le corps
7      Termites, fourmis, etc.
15                  L’Africain
20    De Georgetown à Victoria
28                      Banso*
29      * Aujourd’hui : Kumbo.
30                       Banso
33               Ogoja de rage
39                     L’oubli
Name: chapters, dtype: object

In [178]:
# remove citations at the foots
chapters.drop(index = [28, 29], inplace=True)

Let's display the first 100 lines of the corpus.

In [179]:
pd.options.display.max_rows = 100

french_version_v2.head(100)

0      Tout être humain est le résultat d’un père et ...
1      peut ne pas les reconnaître, ne pas les aimer,...
2      d’eux. Mais ils sont là, avec leur visage, leu...
3      manières et leurs manies, leurs illusions, leu...
4      forme de leurs mains et de leurs doigts de pie...
5      de leurs yeux et de leurs cheveux, leur façon ...
6      pensées, probablement l’âge de leur mort, tout...
7                                               en nous.
8                                                       
9      J’ai longtemps rêvé que ma mère était noire. J...
10     inventé une histoire, un passé, pour fuir la r...
11     retour d’Afrique, dans ce pays, dans cette vil...
12     connaissais personne, où j’étais devenu un étr...
13     découvert, lorsque mon père, à l’âge de la ret...
14     vivre avec nous en France, que c’était lui l’A...
15     été difficile à admettre. Il m’a fallu retourn...
16     recommencer, essayer de comprendre. En souveni...
17                            j

- Wolof version

In [180]:
print(wolof_version[:1000])

baay sama e1_litt 16/02/16 17:42 Page1


baay sama e1_litt 16/02/16 17:42 Page2

Baay sama, doomu Afrig


baay sama e1_litt 16/02/16 17:42 Page4


ci njiiteefU BOUBACAR BORis Diop

maRiama BÂ

Bataaxal bu gudde nii

aimé césaiRe

Nawetu deret

jean-maRie GUSTAve le clézio

Baay sama, doomu Afrig

J E A N - M A R I E G U S T A V E L E C L É Z I O

B A A Y  S A M A ,
D O O M U  A F R I G

Ci tekkim
Daouda Ndiaye

céytU


baay sama e1_litt 16/02/16 17:42 Page6


Titre original : L’Africain.

© Éditions Mercure de France, 2004.

© Zulma et Mémoire d’encrier, 2016, pour la présente édition.

www.ceytu.fr

Doomu-aadama bu, ne ci ndey ak baay nga jóge.
Mënunu leen a baň a gërëm ak a bëgg, doonte sax
mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi
fi, ak seen xar-kanam, seen taxawaay, seen defin
ak seen jikko, seeni njuumte, seeni yaakaar, seen
melokaanu loxook baaraami tànk, seen meloy bët
ak karaw, seen waxin, seeni xalaat, amaana sax at ma
ňuy nar a génne àddina. Loolu lépp, day àgg fu sore
ci

Like with the french version the beginning and the ending of the book contain not interesting information and must be removed. We will separate the corpus by lines and those between the $48^{th}$ line and the $3298^{th}$ line. But before that let's recuperate the chapters' titles which are part of the ending (from line $3306$ to line $3315$).

In [181]:
# separate wolof corpus by line
wolof_version_lines = wolof_version.split("\n")

In [182]:
# recuperate chapters' titles
chapters_w = [ch.strip() for ch in wolof_version_lines[3305:3315] if ch != '']

In [183]:
chapters_w

['Yaramu doom-aadama',
 'Max, mellentaan ak ñoom seen',
 'Doomu Afrig',
 'Dale ko Sorstaawun ba Wiktoryaa',
 'Bansoo',
 'Ogosaak xoñoñ',
 'La woon wonni na']

In [184]:
# recuperate the content of interest
wolof_version_v1 = wolof_version_lines[47:3298]

Let us print the first and last lines of the new corpus.

In [185]:
wolof_version_v1[0], wolof_version_v1[-1]

('Doomu-aadama bu, ne ci ndey ak baay nga jóge.',
 'loxoom, boq ma ci bés bi ma ganesee dunyaa.')

Let us recuperate the lines surrounded by blanks with their information.

In [186]:
# recuperated suspected lines
suspect_lines_w = identify_blank_srd(wolof_version_v1)

# print the suspect_lines in the wolof corpus
suspect_lines_w

[('~ 7 ~', 5, True),
 ('baay sama e1_litt 16/02/16 17:42 Page8', 38, True),
 ('Yaramu doom-aadama', 18, False),
 ('~ 8 ~                                        ~ 9 ~', 50, True),
 ('baay sama e1_litt 16/02/16 17:42 Page10', 39, True),
 ('Ca Afrig, ňàkk kersag yaram yi lu yéemoon na', 44, False),
 ('~ 10 ~', 6, True),
 ('Sooy dugg Óbudu, dangay won àll bi ginnaaw.', 43, False),
 ('~ 11 ~', 6, True),
 ('baay sama e1_litt 16/02/16 17:42 Page12', 39, True),
 ('« Ndax kii dafa tawat ? » – mu ngi ma topp ba tey', 49, False),
 ('~ 12 ~', 6, True),
 ('~ 13 ~', 6, True),
 ('baay sama e1_litt 16/02/16 17:42 Page14', 39, True),
 ('Ogosaa, kenn naju fa kenn di ko teree noyyi te', 46, False),
 ('~ 14 ~', 6, True),
 ('Du ñàkk ñu ni, aa, ñii kat seen nekkin ca Nise-', 47, False),
 ('~ 15 ~', 6, True),
 ('baay sama e1_litt 16/02/16 17:42 Page16', 39, True),
 ('Ogosaa, leneen la woon. Doole ja mu ma daan', 43, False),
 ('~ 16 ~', 6, True),
 ('~ 17 ~', 6, True),
 ('baay sama e1_litt 16/02/16 17:42 Page1

The lines being parts of the main text doesn't contain number. So let's separate the suspect lines between those containing number(s) and those don't containing number(s).

In [187]:
suspect_w_n = [s[0] for s in suspect_lines_w if s[2]]
suspect_w_no_n = [s for s in suspect_lines_w if not s[2]]

In [188]:
# print the suspect lines with no digits in them
suspect_w_no_n

[('Yaramu doom-aadama', 18, False),
 ('Ca Afrig, ňàkk kersag yaram yi lu yéemoon na', 44, False),
 ('Sooy dugg Óbudu, dangay won àll bi ginnaaw.', 43, False),
 ('« Ndax kii dafa tawat ? » – mu ngi ma topp ba tey', 49, False),
 ('Ogosaa, kenn naju fa kenn di ko teree noyyi te', 46, False),
 ('Du ñàkk ñu ni, aa, ñii kat seen nekkin ca Nise-', 47, False),
 ('Ogosaa, leneen la woon. Doole ja mu ma daan', 43, False),
 ('Tugal soof ma. Ogosaa jommal ma, daanaka am', 43, False),
 ('Max, mellentaan ak ñoom seen', 28, False),
 ('Waaye xale bu ndaw laa booba, dooley Àngalteer', 46, False),
 ('Biñ yeggee ci diggu joor gi, sori lool sunu kër,', 48, False),
 ('Miin kon naa gis-gis boobu ba duma ko soxlaa fat', 48, False),
 ('ba koy fàtte.', 13, False),
 ('puso bu ñu soos ci alkol.', 25, False),
 ('Xew-xew boobu, ñaata yoon laa dégg sama yaay', 44, False),
 ('Loolu, ay waxi mag kese la woon ci nn. Nun xale', 47, False),
 ('Dina ma jafe tey ma wax lu nu doon tax a def', 44, False),
 ('Doomu Afrig', 1

Only the chapters (that we recuperated) are not interesting in the above list.

Let us transform the corpus to a `pandas Series` in order to remove the suspect lines and the chapters. 


In [189]:
# recuperate the wolof corpus as a pandas Series
wolof_version_v2 = pd.Series(wolof_version_v1).map(str.strip)

# change the name of the Series to "wolof_corpus"
wolof_version_v2.name = "wolof_corpus"

# remove suspect lines
wolof_version_v2 = wolof_version_v2[~wolof_version_v2.isin(suspect_w_n)]

# remove chapters
wolof_version_v2 = wolof_version_v2[~wolof_version_v2.isin(chapters_w)]


Let's display the first 100 lines of the corpus.

In [190]:
pd.options.display.max_rows = 100

wolof_version_v2.head(100)

0          Doomu-aadama bu, ne ci ndey ak baay nga jóge.
1        Mënunu leen a baň a gërëm ak a bëgg, doonte sax
2            mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi
3       fi, ak seen xar-kanam, seen taxawaay, seen defin
4      ak seen jikko, seeni njuumte, seeni yaakaar, seen
5         melokaanu loxook baaraami tànk, seen meloy bët
6      ak karaw, seen waxin, seeni xalaat, amaana sax...
7      ňuy nar a génne àddina. Loolu lépp, day àgg fu...
8                                                ci nun.
9                                                       
10              Bi ma delloo dëkk ba ma juddoo, dama faa
11     meloon ni gan. Du kenn ku ma fa xam, safatul dara
12     ci man. Li nu jóge Afrig jur ci man tiis wu ré...
13           ma yaboo sax ni mënuma woon a nangu ni maak
14         samay way-jur dëkkëtuñu Niseryaa. Ca laa tàm-
15     balee gént ni sama yaay nit ku ñuul la, di sàk...
16         sama bopp cosaan lu bees. Àddinay dox ba Baay
17      tollu ci noppalug liggé

Let us save the first and second version of the corpora.

In [191]:
pd.DataFrame(french_version_v1).to_csv('data/extractions/new_data/french_version_v1.csv', index=False)
pd.DataFrame(french_version_v2).to_csv('data/extractions/new_data/french_version_v2.csv', index=False)
pd.DataFrame(wolof_version_v1).to_csv('data/extractions/new_data/wolof_version_v1.csv', index=False)
pd.DataFrame(wolof_version_v2).to_csv('data/extractions/new_data/wolof_version_v2.csv', index=False)

### Identify the documents

#### Document as sentence

Firstly, let us consider the documents to be the sentences in the corpora. On another word we consider that the necessary contexts are in the sentences. Later we will consider that to find the context of a speech we must consider all the paragraph and not just the sentences. But let us consider for the moment the most simple case. 

We know that the wolof corpus is an translation of the french corpus so we normally obtain the same number of sentences for the two corpora. Let us print the number of lines in each corpus.

In [192]:
# number of lines in the french corpus
french_version_v2.shape[0]

2858

In [193]:
# number of lines in the wolof corpus
wolof_version_v2.shape[0]

3101

It seems that the french corpus contains more reliable lines. In other words it contains less number of faulty separations between the lines. The wolof corpus can contain blank(s) between multiple parts of the same paragraph. We will treat the french version in order to correct the wolof version for more simplicity.

- French version

Let us reconvert the french corpus to a list.

In [194]:
# reconvert the french corpus to a list
french_version_v3 = french_version_v2.to_list()

Let us treat the french corpus as one document.

In [195]:
# reconvert corpus to text
french_text = " ".join(french_version_v3)

In [196]:
french_text

'Tout être humain est le résultat d’un père et une mère. On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous.  J’ai longtemps rêvé que ma mère était noire. Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger. Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain. Cela a été difficile à admettre. Il m’a fallu retourner en arrière, recommencer, essayer de comprendre. En souvenir de cela, j’ai écrit ce petit livre.      De ce visage que j’ai reçu à ma naissance, j

We can use `spacy` to obtain the different sentences of the text. We will use the large french model.

In [197]:
# import the french nlp model from spacy
french_nlp = spacy.load('fr_core_news_lg')

Let us give the text to the model.

In [198]:
# recuperate the document
doc = french_nlp(french_text)

Let us print the length of the document.

In [199]:
len(doc)

28486

It identified **28486** tokens. For the moment we want only the sentences so let us recuperate them with the `sents` object.

In [200]:
french_sentences = doc.sents

Let us print the number of identified sentences.

In [201]:
# transform sentences from generator to list
french_sentences = list(french_sentences)

len(french_sentences)

1051

It identified `1051` sentences. Let us print the 100 first sentences.

In [202]:
french_sentences[:100]

[Tout être humain,
 est le résultat d’un père et une mère.,
 On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux.,
 Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous.  ,
 J’ai longtemps rêvé que ma mère était noire.,
 Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger.,
 Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain.,
 Cela a été difficile à admettre.,
 Il m’a fallu retourner en arrière, recommencer, essayer de comprendre.,
 En souvenir de cela, j’ai écrit ce petit livre.      ,
 De ce visage que j’ai 

Some of the sentences are not correctly identified. We must identify the sentences ourselves:

- Firstly, we must again recuperate the whole text from the list but at this time separating the elements by line breaks. 
- Secondly, Identify the words ending with "-" + "\n" which are words separated in two parts where the second part is in the beginning of the next line.
- Thirdly, use the text with no line breaks to recombine the identified words.
- Fourthly, delete the too much spaces. 
- ~~Fifthly, identify what can identify a sentence in the text~~.
- ~~Sixthly, use the sentences' characteristics to recuperate them~~.
- Seventy, we can also try to use the `spacy` or `nltk` methods to obtain a more accurate separations.

Let us recuperate the original text.

In [203]:
# reconvert corpus to text
french_text_break = "\n".join(french_version_v3)

In [204]:
french_text_break

'Tout être humain est le résultat d’un père et une mère. On\npeut ne pas les reconnaître, ne pas les aimer, on peut douter\nd’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs\nmanières et leurs manies, leurs illusions, leurs espoirs, la\nforme de leurs mains et de leurs doigts de pied, la couleur\nde leurs yeux et de leurs cheveux, leur façon de parler, leurs\npensées, probablement l’âge de leur mort, tout cela est passé\nen nous.\n\nJ’ai longtemps rêvé que ma mère était noire. Je m’étais\ninventé une histoire, un passé, pour fuir la réalité à mon\nretour d’Afrique, dans ce pays, dans cette ville où je ne\nconnaissais personne, où j’étais devenu un étranger. Puis j’ai\ndécouvert, lorsque mon père, à l’âge de la retraite, est revenu\nvivre avec nous en France, que c’était lui l’Africain. Cela a\nété difficile à admettre. Il m’a fallu retourner en arrière,\nrecommencer, essayer de comprendre. En souvenir de cela,\nj’ai écrit ce petit livre.\n\n\n\n\n\nDe ce visage que j’ai

Let us recuperate the word separated in two parts by "-".

In [205]:
def recuperate_break_words(text):
    
    text_words = text.split(" ")
    
    break_word = []
    
    for word in text_words:
        
        if "-\n" in word:
            
            break_word.append(word)
    
    return break_word

break_words = recuperate_break_words(french_text_break)

In [206]:
break_words

['unique-\nment',
 'aujour-\nd’hui',
 'l’efface-\nment',
 'l’ap-\nparition',
 'admi-\nrable,',
 'étran-\n\n\n\n\n\ngement,',
 'ques-\ntion',
 'souf-\nflet.',
 'sarco-\nphage',
 'abri-\ntait',
 'puis-\nqu’un',
 'l’hô-\npital',
 'ruis-\nseaux',
 'qu’en-\nvahissaient,',
 'grand-\nmère,',
 'kilo-\nmètre,',
 'l’en-\n\n\n\n\nthousiasme.',
 'recon-\nnais',
 'particuliè-\nrement',
 's’in-\ncliner',
 'complète-\nment',
 'flam-\nboyants,',
 'puis-\nsance',
 'souve-\nnais',
 'forte-\nresses',
 'mousti-\nquaire.',
 'poussié-\nreuses',
 'm’in-\ndifférait',
 'chaus-\nsettes',
 'l’éduca-\ntion',
 'compen-\nsation',
 'aven-\n\nturés,',
 'l’in-\nterdiction',
 'j’ima-\ngine',
 'l’après-\nmidi,',
 'l’ar-\ngent,',
 'chapar-\ndaient,',
 'enva-\nhissait',
 'd’an-\ntennes',
 'm’em-\nporte',
 'guer-\nrières',
 'nais-\nsance,',
 'dévo-\nrant,',
 'exer-\ncice',
 'regar-\ndions',
 'scor-\npions',
 'agres-\nsait.',
 'inévi-\ntables,',
 'drama-\ntique,',
 'aujour-\n\n\n\n\n\nd’hui.',
 'scor-\npion',
 'parfai-\ntem

The following words are actually composed of "-" so we will delete only the break line in them. 

In [207]:
words_with_hyphen = ['grand-mère', 'l’après-midi', 'demi-siècle', 'Peut-être', 'demi-lune', 
                     'Pont-l’Abbé', 'l’anglo-hollandaise']

We took in the list only the words but some of them are accompanied by punctuations. We will delete those punctuations before replacements.

In [208]:
def recombine_words(words, words_with_hyphen, sign_to_remove: list = ['.', ',']):
    # correction of the broken words
    recombined_words = []

    for i, word in enumerate(words):
        
        for sign in sign_to_remove:
            
            word = word.replace(sign, "")
        
        words[i] = word
        
        word = word.replace("\n", "")
        
        if not word in set(words_with_hyphen):
            
            word = word.replace("-", "")
        
        recombined_words.append(word)
    
    return recombined_words

recombined_words = recombine_words(break_words, words_with_hyphen)

In [209]:
# broken words without punctuations
break_words

['unique-\nment',
 'aujour-\nd’hui',
 'l’efface-\nment',
 'l’ap-\nparition',
 'admi-\nrable',
 'étran-\n\n\n\n\n\ngement',
 'ques-\ntion',
 'souf-\nflet',
 'sarco-\nphage',
 'abri-\ntait',
 'puis-\nqu’un',
 'l’hô-\npital',
 'ruis-\nseaux',
 'qu’en-\nvahissaient',
 'grand-\nmère',
 'kilo-\nmètre',
 'l’en-\n\n\n\n\nthousiasme',
 'recon-\nnais',
 'particuliè-\nrement',
 's’in-\ncliner',
 'complète-\nment',
 'flam-\nboyants',
 'puis-\nsance',
 'souve-\nnais',
 'forte-\nresses',
 'mousti-\nquaire',
 'poussié-\nreuses',
 'm’in-\ndifférait',
 'chaus-\nsettes',
 'l’éduca-\ntion',
 'compen-\nsation',
 'aven-\n\nturés',
 'l’in-\nterdiction',
 'j’ima-\ngine',
 'l’après-\nmidi',
 'l’ar-\ngent',
 'chapar-\ndaient',
 'enva-\nhissait',
 'd’an-\ntennes',
 'm’em-\nporte',
 'guer-\nrières',
 'nais-\nsance',
 'dévo-\nrant',
 'exer-\ncice',
 'regar-\ndions',
 'scor-\npions',
 'agres-\nsait',
 'inévi-\ntables',
 'drama-\ntique',
 'aujour-\n\n\n\n\n\nd’hui',
 'scor-\npion',
 'parfai-\ntement',
 'au-\ndessus

In [210]:
# words with their real form
recombined_words

['uniquement',
 'aujourd’hui',
 'l’effacement',
 'l’apparition',
 'admirable',
 'étrangement',
 'question',
 'soufflet',
 'sarcophage',
 'abritait',
 'puisqu’un',
 'l’hôpital',
 'ruisseaux',
 'qu’envahissaient',
 'grand-mère',
 'kilomètre',
 'l’enthousiasme',
 'reconnais',
 'particulièrement',
 's’incliner',
 'complètement',
 'flamboyants',
 'puissance',
 'souvenais',
 'forteresses',
 'moustiquaire',
 'poussiéreuses',
 'm’indifférait',
 'chaussettes',
 'l’éducation',
 'compensation',
 'aventurés',
 'l’interdiction',
 'j’imagine',
 'l’après-midi',
 'l’argent',
 'chapardaient',
 'envahissait',
 'd’antennes',
 'm’emporte',
 'guerrières',
 'naissance',
 'dévorant',
 'exercice',
 'regardions',
 'scorpions',
 'agressait',
 'inévitables',
 'dramatique',
 'aujourd’hui',
 'scorpion',
 'parfaitement',
 'audessus',
 'rassurant',
 'endormissantes',
 'territoires',
 'équatorial',
 'l’impossibilité',
 'insoutenable',
 'résignation',
 'autoritaire',
 'existait',
 'coloniale',
 'parapluies',
 'départe

Let us replace the broken words in the original text by their correct form.

In [211]:
for i in range(len(break_words)):
    
    french_text_break = french_text_break.replace(break_words[i], recombined_words[i])

french_text_break

'Tout être humain est le résultat d’un père et une mère. On\npeut ne pas les reconnaître, ne pas les aimer, on peut douter\nd’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs\nmanières et leurs manies, leurs illusions, leurs espoirs, la\nforme de leurs mains et de leurs doigts de pied, la couleur\nde leurs yeux et de leurs cheveux, leur façon de parler, leurs\npensées, probablement l’âge de leur mort, tout cela est passé\nen nous.\n\nJ’ai longtemps rêvé que ma mère était noire. Je m’étais\ninventé une histoire, un passé, pour fuir la réalité à mon\nretour d’Afrique, dans ce pays, dans cette ville où je ne\nconnaissais personne, où j’étais devenu un étranger. Puis j’ai\ndécouvert, lorsque mon père, à l’âge de la retraite, est revenu\nvivre avec nous en France, que c’était lui l’Africain. Cela a\nété difficile à admettre. Il m’a fallu retourner en arrière,\nrecommencer, essayer de comprendre. En souvenir de cela,\nj’ai écrit ce petit livre.\n\n\n\n\n\nDe ce visage que j’ai

Let us replace the break lines by spaces and delete the too much spaces.

In [212]:
french_text = " ".join(french_text_break.replace("\n", " ").split())

In [213]:
print(french_text)

Tout être humain est le résultat d’un père et une mère. On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous. J’ai longtemps rêvé que ma mère était noire. Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger. Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain. Cela a été difficile à admettre. Il m’a fallu retourner en arrière, recommencer, essayer de comprendre. En souvenir de cela, j’ai écrit ce petit livre. De ce visage que j’ai reçu à ma naissance, j’ai des

A sentence begins with a capital letter and finishes with one of the following punctuation marks: "." (period), "?" (question mark), or "!" (exclamation point). But the latter can also be used in the end of a expression, in ellipsis or for some types of abbreviations or acronyms. 

In place of wasting some times to identify all of them let us try the `nltk sent_tokenize` function to find the different sentences.

In [214]:
sentences = nltk.tokenize.sent_tokenize(french_text, language="french")

In [215]:
print(sentences)

['Tout être humain est le résultat d’un père et une mère.', 'On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux.', 'Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous.', 'J’ai longtemps rêvé que ma mère était noire.', 'Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger.', 'Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain.', 'Cela a été difficile à admettre.', 'Il m’a fallu retourner en arrière, recommencer, essayer de comprendre.', 'En souvenir de cela, j’ai écrit ce petit livre.', 'De ce visage que j’ai 

We obtain a greater sentence tokenization than previously with `spacy`. But most of the quotation marks contains ending marks which make the tokenizer to send the ending quotation to the next sentence(s). For that problem we have two possible choices: 

1. We can take only the ending quotation and replace it in the right sentence; 

2. We can also take all of the next sentence containing the ending quotation and place in the sentence containing the beginning quotation. 

It is preferable to choose the second option. It can give a very long sentence but can take more of the context. 

We identified also some sentences with parentheses which are not correctly separated due to the fact that a sentence is inside the brackets. We must choose the first option for that case. 

We will take the sentences between the indices 925 and 930 as a unique sentence.

In [216]:
def unify_correction(sentences: list, marks: List[Tuple] = [("«", "»", True), ("(", ")", False)],
                            unified_sentences_between_pos: List[Tuple] = [(925, 930)]):
    
    corrected_sentences = []
    
    only_end_mark = []
    
    only_begin_mark = []
    
    i = 0
    
    while i < len(sentences):
        
        for u in unified_sentences_between_pos:
            
            if i >= u[0]-1 and i < u[1]:
                
                range_ = u[1] - u[0]
                
                unification = sentences[u[0] - 1]
                
                for j in range(u[0], u[0] + range_):
                    
                    unification += " " + sentences[j]
                
                i += range_ + 1
                    
                corrected_sentences.append(unification)
        
        unify_next = False
        
        space = " "
        
        if i != 0:
            
            for mark in marks:
                
                begin_mark = False
                
                end_mark = False
                
                for letter in corrected_sentences[-1]:
                    
                    if letter == mark[1]:
                        
                        begin_mark = False
                    
                    elif letter == mark[0]:
                        
                        begin_mark = True
                
                for letter in sentences[i]:
                    
                    if letter == mark[1]:
                        
                        end_mark = True

                        break
                    
                    else:
                        
                        break
                
                if end_mark and not begin_mark:
                    
                    only_end_mark.append(sentences[i])
                
                elif begin_mark and not end_mark:
                    
                    only_begin_mark.append(corrected_sentences[-1])
                
                if end_mark and begin_mark:
                    
                    unify_next = True
                    
                    space = " " if mark[2] else ""
            
        if unify_next:
            
            corrected_sentences[-1] = corrected_sentences[-1] + space + sentences[i]
        
        else:
            
            corrected_sentences.append(sentences[i])
            
        i += 1
    
    return corrected_sentences, {"begin_mark_only": only_begin_mark, "end_mark_only": only_end_mark}
        
        
corrected_sentences, not_corrected = unify_correction(sentences)

In [217]:
print(corrected_sentences)

['Tout être humain est le résultat d’un père et une mère.', 'On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux.', 'Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous.', 'J’ai longtemps rêvé que ma mère était noire.', 'Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger.', 'Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain.', 'Cela a été difficile à admettre.', 'Il m’a fallu retourner en arrière, recommencer, essayer de comprendre.', 'En souvenir de cela, j’ai écrit ce petit livre.', 'De ce visage que j’ai 

In [218]:
not_corrected

{'begin_mark_only': ['Quand ma mère revient (peut-être vaguement inquiète de ce rassemblement), je lui montre cette femme : « Qu’est-ce qu’elle a ?',
  'Ils étaient militaires, juges, district officers (ces D.O.'],
 'end_mark_only': []}

We identified another problem above which is the sentence's separation on a common abbreviation. We noticed many of that cases in the text. We must recombine those sentences with the ones just after them, beginning with a non capital letter. 

In [219]:
def lift_up_no_upper(sentences):
    
    corrected_sentences = [sentences[0]]
    
    for i in range(1, len(sentences)):
        
        if not sentences[i][0].isupper():
            
            corrected_sentences[-1] = corrected_sentences[-1] + " " + sentences[i]
        
        else:
            
            corrected_sentences.append(sentences[i])
        
    return corrected_sentences

corrected_sentences = lift_up_no_upper(corrected_sentences)

In [220]:
print(corrected_sentences)

['Tout être humain est le résultat d’un père et une mère.', 'On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux.', 'Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous.', 'J’ai longtemps rêvé que ma mère était noire.', 'Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger.', 'Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain.', 'Cela a été difficile à admettre.', 'Il m’a fallu retourner en arrière, recommencer, essayer de comprendre.', 'En souvenir de cela, j’ai écrit ce petit livre.', 'De ce visage que j’ai 

Let us save the current results.

In [221]:
# the third version
french_version_v3 = pd.Series(corrected_sentences, name = "french_version")

# save the version
pd.DataFrame(french_version_v3).to_csv("data/extractions/new_data/french_version_v3_sents.csv", index = False)

Let us verify the number of sentences that we finally got from the french corpus.

In [222]:
french_version_v3.shape[0]

957

We finally got **957** sentences. 

Let us work on the wolof_corpus now.

- Wolof version

Let us reconvert the wolof corpus to a list.

In [223]:
# reconvert the wolof corpus to a list
wolof_version_v3 = wolof_version_v2.to_list()

Let us treat the french corpus as one document.

In [224]:
# reconvert corpus to text
wolof_text = " ".join(wolof_version_v3)

In [225]:
wolof_text

'Doomu-aadama bu, ne ci ndey ak baay nga jóge. Mënunu leen a baň a gërëm ak a bëgg, doonte sax mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi fi, ak seen xar-kanam, seen taxawaay, seen defin ak seen jikko, seeni njuumte, seeni yaakaar, seen melokaanu loxook baaraami tànk, seen meloy bët ak karaw, seen waxin, seeni xalaat, amaana sax at ma ňuy nar a génne àddina. Loolu lépp, day àgg fu sore ci nun.  Bi ma delloo dëkk ba ma juddoo, dama faa meloon ni gan. Du kenn ku ma fa xam, safatul dara ci man. Li nu jóge Afrig jur ci man tiis wu réy. Su ma yaboo sax ni mënuma woon a nangu ni maak samay way-jur dëkkëtuñu Niseryaa. Ca laa tàm- balee gént ni sama yaay nit ku ñuul la, di sàkkal it sama bopp cosaan lu bees. Àddinay dox ba Baay tollu ci noppalug liggéey, dellusi Tugal dëkk ak ňun.Ci la ma leere ni moom moomoo doon doomu Afrig. Mu doon nag lu naqadee nangu. Damaa mujjoon a delloo sama xel démb ngir lijjanti lépp la ca léjoon. Kon fàttalikoo meññ téere bu ndaw bii.      Kanam gii ma judduwaale,

Let us again use the `large french model` of the `spacy` library to identify the wolof corpus' sentences.

In [226]:
# import the wolof nlp (actually french model) model from spacy
wolof_nlp = spacy.load('fr_core_news_lg')

Let us give the text to the model.

In [227]:
# recuperate the document
doc = wolof_nlp(wolof_text)

Let us print the length of the document.

In [228]:
len(doc)

29656

It identified **29685** tokens so almost **1000** more tokens than for the french corpus. For the moment we want only the sentences so let us recuperate them with the `sents` object.

In [229]:
wolof_sentences = doc.sents

Let us print the number of identified sentences.

In [230]:
# transform sentences from generator to list
wolof_sentences = list(wolof_sentences)

len(wolof_sentences)

3922

It identified `3927` sentences. Let us print the 100 first sentences.

In [231]:
wolof_sentences[:100]

[Doomu,
 -aadama bu, ne ci ndey ak baay nga jóge.,
 Mënunu leen a baň a gërëm ak a bëgg, doonte,
 sax mën nanoo am xel ňaar ci ňoom.,
 Waaye ňu ngi fi, ak seen xar-kanam, seen taxawaay, seen defin ak seen jikko, seeni njuumte, seeni yaakaar, seen melokaanu loxook baaraami tànk, seen meloy bët ak karaw, seen waxin, seeni xalaat, amaana sax at ma ňuy nar a génne àddina.,
 Loolu lépp, day àgg fu sore ci nun.,
  ,
 Bi ma delloo dëkk ba ma juddoo, dama faa meloon ni gan.,
 Du kenn ku ma fa xam, safatul dara ci man.,
 Li nu jóge,
 Afrig jur ci man tiis wu réy.,
 Su ma yaboo sax ni mënuma woon a nangu ni maak samay way,
 -jur dëkkëtuñu,
 Niseryaa,
 .,
 Ca laa tàm-,
 balee gént ni sama yaay nit ku ñuul la, di sàkkal it sama bopp cosaan,
 lu bees.,
 Àddinay dox ba Baay tollu ci noppalug liggéey, dellusi,
 Tugal dëkk ak ňun.,
 Ci la ma leere ni moom moomoo doon doomu,
 Afrig.,
 Mu doon nag,
 lu,
 naqadee nangu.,
 Damaa mujjoon a delloo sama xel démb,
 ngir lijjanti lépp la ca léjoon.,
 Kon fàtta

The result is worse than that of the french version. It can be due to the fact the model don't recognize the used words since it is trained only on french words.

It seems we have almost the same problems than previously with the french corpus concerning the separation of the words in two different parts. Let us make the same steps than for the french version to identify the wolof corpus' sentences.:

- Firstly, we must again recuperate the whole text from the list but at this time separating the elements by line breaks. 
- Secondly, Identify the words ending with "-" + "\n" which are words separated in two parts where the second part is in the beginning of the next line.
- Thirdly, use the text with no line breaks to recombine the identified words.
- Fourthly, delete the too much spaces. 
- Fifthly, identify what can identify a sentence in the text.
- Sixthly, use the sentences' characteristics to recuperate them.
- Seventy, we can also try to use the `spacy` or `nltk` methods to obtain a more accurate separations.

Let us recuperate the original text.

In [232]:
# reconvert corpus to text
wolof_text_break = "\n".join(wolof_version_v3)

In [233]:
wolof_text_break

'Doomu-aadama bu, ne ci ndey ak baay nga jóge.\nMënunu leen a baň a gërëm ak a bëgg, doonte sax\nmën nanoo am xel ňaar ci ňoom. Waaye ňu ngi\nfi, ak seen xar-kanam, seen taxawaay, seen defin\nak seen jikko, seeni njuumte, seeni yaakaar, seen\nmelokaanu loxook baaraami tànk, seen meloy bët\nak karaw, seen waxin, seeni xalaat, amaana sax at ma\nňuy nar a génne àddina. Loolu lépp, day àgg fu sore\nci nun.\n\nBi ma delloo dëkk ba ma juddoo, dama faa\nmeloon ni gan. Du kenn ku ma fa xam, safatul dara\nci man. Li nu jóge Afrig jur ci man tiis wu réy. Su\nma yaboo sax ni mënuma woon a nangu ni maak\nsamay way-jur dëkkëtuñu Niseryaa. Ca laa tàm-\nbalee gént ni sama yaay nit ku ñuul la, di sàkkal it\nsama bopp cosaan lu bees. Àddinay dox ba Baay\ntollu ci noppalug liggéey, dellusi Tugal dëkk ak\nňun.Ci la ma leere ni moom moomoo doon doomu\nAfrig. Mu doon nag lu naqadee nangu. Damaa\nmujjoon a delloo sama xel démb ngir lijjanti lépp\nla ca léjoon. Kon fàttalikoo meññ téere bu ndaw bii.\n\n\n\n\

Let us recuperate the word separated in two parts by "-".

In [234]:
break_words_w = recuperate_break_words(wolof_text_break)

In [235]:
break_words_w

['tàm-\nbalee',
 'xar-\nkanami',
 'yëg-\nyëg.',
 'nes-\nnesi.',
 'nes-\ntuut',
 'nuyoon-\nteek',
 'Tàn-\ngaayu',
 'Konaa-\nkiri,',
 'xar-\nkanam,',
 'fàtta-\nliku,',
 'Nise-\n\nryaa',
 'tàkku-\nsaan',
 'ruu-\nmandaat,',
 'bëj-\ngànnaar,',
 'tàm-\nbalee',
 'jànkon-\nteel',
 'doomi-\ntubaabi-Afrig',
 'xar-\nkanamu',
 'mbàp-\npaaral,',
 'Àngal-\nteer,',
 'Koňsi-\nlaa.\n\nWaaye',
 'gis-\ngisam,',
 'tuutee-\ntuuti',
 'sol-\nleen',
 'jonn-Yàlla-\ntey,',
 'àndan-\ndoo',
 'màn-\ndargaal',
 'dëk-\nkanteek',
 'yaa-\nkaaroon',
 'tekk-tek-\n\n\nkaaral.',
 'safaa-\nnub',
 'mellen-\ntaani',
 'junniy-\njunni',
 'Mellen-\ntaan',
 'fàt-\ntaliku',
 'wén-\ndeelu',
 'bërki-démboo-\nnjaay',
 'yée-\nmuwaat',
 'dëgg-\ndëgg,',
 'wër-\n\n\n\n\n\nndomb,',
 '‘kàn-\nkarlaa’,',
 'defara-\nloon',
 'kep-\npukaay',
 'ndey-\nsaan.',
 'peto-\nrool',
 'moo-\nmeelu',
 'téwófi-\nlin,',
 'Muj-\n\n\n\n\n\njewul',
 'jum-\ntukaay',
 'toolu-\nxare,',
 'tàkkal-\ndex',
 'fàt-\ntalikoo',
 '(niróo-\nwaaleem',
 'jub-\nbanti',
 'Àng

The following words are actually composed of "-" so we will delete only the break line in them.

In [236]:
words_with_hyphen_w = ['yëg-yëg', 'xar-kanam', 'bëj-gànnaar', 'doomi-tubaabi-Afrig',
                       'xar-kanamu', 'gis-gisam', 'tuutee-tuuti', 'jonn-Yàlla-tey', 'junniy-junni',
                       'dëgg-dëgg', 'wër-ndomb', 'toolu-xare', 'tàkkal-dex', 'doomu-nijaayam',
                       'doomi-jàngoro', 'yëngatu-deret', 'Rax-ci-dolli', 'saxaari-géej', 'andu-Tubaab', 'dëkki-kow',
                       'way-jur', 'jal-jali', 'xar-kanami', 'doom-aadama', 'bëj-saalumu', 'Foor-Laperin', 'gis-gisu',
                       'dóomu-taal', 'jékkee-jékki', 'Xumb-xumbi', 'way-xare-lekk', 'similaak-saala', 'ñetti-téeméeri']

We took in the list only the words but some of them are accompanied by punctuations. We will delete those punctuations when recombined the words.

In [237]:
recombined_words_w = recombine_words(break_words_w, words_with_hyphen_w, sign_to_remove=['\n\nWaaye', '\n\nBaay', '\n\nSu', '\n\nAtum', '.', ',',
                                                                  '(', ')', '‘', '’'])

In [238]:
# broken words without punctuations
break_words_w

['tàm-\nbalee',
 'xar-\nkanami',
 'yëg-\nyëg',
 'nes-\nnesi',
 'nes-\ntuut',
 'nuyoon-\nteek',
 'Tàn-\ngaayu',
 'Konaa-\nkiri',
 'xar-\nkanam',
 'fàtta-\nliku',
 'Nise-\n\nryaa',
 'tàkku-\nsaan',
 'ruu-\nmandaat',
 'bëj-\ngànnaar',
 'tàm-\nbalee',
 'jànkon-\nteel',
 'doomi-\ntubaabi-Afrig',
 'xar-\nkanamu',
 'mbàp-\npaaral',
 'Àngal-\nteer',
 'Koňsi-\nlaa',
 'gis-\ngisam',
 'tuutee-\ntuuti',
 'sol-\nleen',
 'jonn-Yàlla-\ntey',
 'àndan-\ndoo',
 'màn-\ndargaal',
 'dëk-\nkanteek',
 'yaa-\nkaaroon',
 'tekk-tek-\n\n\nkaaral',
 'safaa-\nnub',
 'mellen-\ntaani',
 'junniy-\njunni',
 'Mellen-\ntaan',
 'fàt-\ntaliku',
 'wén-\ndeelu',
 'bërki-démboo-\nnjaay',
 'yée-\nmuwaat',
 'dëgg-\ndëgg',
 'wër-\n\n\n\n\n\nndomb',
 'kàn-\nkarlaa',
 'defara-\nloon',
 'kep-\npukaay',
 'ndey-\nsaan',
 'peto-\nrool',
 'moo-\nmeelu',
 'téwófi-\nlin',
 'Muj-\n\n\n\n\n\njewul',
 'jum-\ntukaay',
 'toolu-\nxare',
 'tàkkal-\ndex',
 'fàt-\ntalikoo',
 'niróo-\nwaaleem',
 'jub-\nbanti',
 'Àngal-\nteer',
 'Saawu-\nsamton',


In [239]:
# words with their real form
recombined_words_w

['tàmbalee',
 'xar-kanami',
 'yëg-yëg',
 'nesnesi',
 'nestuut',
 'nuyoonteek',
 'Tàngaayu',
 'Konaakiri',
 'xar-kanam',
 'fàttaliku',
 'Niseryaa',
 'tàkkusaan',
 'ruumandaat',
 'bëj-gànnaar',
 'tàmbalee',
 'jànkonteel',
 'doomi-tubaabi-Afrig',
 'xar-kanamu',
 'mbàppaaral',
 'Àngalteer',
 'Koňsilaa',
 'gis-gisam',
 'tuutee-tuuti',
 'solleen',
 'jonn-Yàlla-tey',
 'àndandoo',
 'màndargaal',
 'dëkkanteek',
 'yaakaaroon',
 'tekktekkaaral',
 'safaanub',
 'mellentaani',
 'junniy-junni',
 'Mellentaan',
 'fàttaliku',
 'wéndeelu',
 'bërkidémboonjaay',
 'yéemuwaat',
 'dëgg-dëgg',
 'wër-ndomb',
 'kànkarlaa',
 'defaraloon',
 'keppukaay',
 'ndeysaan',
 'petorool',
 'moomeelu',
 'téwófilin',
 'Mujjewul',
 'jumtukaay',
 'toolu-xare',
 'tàkkal-dex',
 'fàttalikoo',
 'niróowaaleem',
 'jubbanti',
 'Àngalteer',
 'Saawusamton',
 'waxambaane',
 'Fekkkoon',
 'jàppanteem',
 'doomu-nijaayam',
 'fàttaliku',
 'doomi-jàngoro',
 'jàngoroy',
 'yëngatu-deret',
 'dëggëntaan',
 'opeerekat',
 'móobalam',
 'Corporation',

Let us replace the broken words in the original text by their correct form.

In [240]:
for i in range(len(break_words_w)):
    
    wolof_text_break = wolof_text_break.replace(break_words_w[i], recombined_words_w[i])

wolof_text_break

'Doomu-aadama bu, ne ci ndey ak baay nga jóge.\nMënunu leen a baň a gërëm ak a bëgg, doonte sax\nmën nanoo am xel ňaar ci ňoom. Waaye ňu ngi\nfi, ak seen xar-kanam, seen taxawaay, seen defin\nak seen jikko, seeni njuumte, seeni yaakaar, seen\nmelokaanu loxook baaraami tànk, seen meloy bët\nak karaw, seen waxin, seeni xalaat, amaana sax at ma\nňuy nar a génne àddina. Loolu lépp, day àgg fu sore\nci nun.\n\nBi ma delloo dëkk ba ma juddoo, dama faa\nmeloon ni gan. Du kenn ku ma fa xam, safatul dara\nci man. Li nu jóge Afrig jur ci man tiis wu réy. Su\nma yaboo sax ni mënuma woon a nangu ni maak\nsamay way-jur dëkkëtuñu Niseryaa. Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it\nsama bopp cosaan lu bees. Àddinay dox ba Baay\ntollu ci noppalug liggéey, dellusi Tugal dëkk ak\nňun.Ci la ma leere ni moom moomoo doon doomu\nAfrig. Mu doon nag lu naqadee nangu. Damaa\nmujjoon a delloo sama xel démb ngir lijjanti lépp\nla ca léjoon. Kon fàttalikoo meññ téere bu ndaw bii.\n\n\n\n\n\n

Let us replace the break lines by spaces and delete the too much spaces.

In [241]:
wolof_text = " ".join(wolof_text_break.replace("\n", " ").split())

In [242]:
wolof_text

'Doomu-aadama bu, ne ci ndey ak baay nga jóge. Mënunu leen a baň a gërëm ak a bëgg, doonte sax mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi fi, ak seen xar-kanam, seen taxawaay, seen defin ak seen jikko, seeni njuumte, seeni yaakaar, seen melokaanu loxook baaraami tànk, seen meloy bët ak karaw, seen waxin, seeni xalaat, amaana sax at ma ňuy nar a génne àddina. Loolu lépp, day àgg fu sore ci nun. Bi ma delloo dëkk ba ma juddoo, dama faa meloon ni gan. Du kenn ku ma fa xam, safatul dara ci man. Li nu jóge Afrig jur ci man tiis wu réy. Su ma yaboo sax ni mënuma woon a nangu ni maak samay way-jur dëkkëtuñu Niseryaa. Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it sama bopp cosaan lu bees. Àddinay dox ba Baay tollu ci noppalug liggéey, dellusi Tugal dëkk ak ňun.Ci la ma leere ni moom moomoo doon doomu Afrig. Mu doon nag lu naqadee nangu. Damaa mujjoon a delloo sama xel démb ngir lijjanti lépp la ca léjoon. Kon fàttalikoo meññ téere bu ndaw bii. Kanam gii ma judduwaale, am na l

In the wolof corpus we must separate letters by a space letter and end marks that are sticked on.

In [243]:
def take_off(text: str, end_marks: list = [".", "?", "!"]):
    
    elements = text.split(" ")
    
    elements_with_sticks = []
    
    for i in range(len(elements)):
        
        element = elements[i]
        
        for mark in end_marks:
            
            if mark in element and element[0] != mark and element[-1] != mark:
                
                splitted = element.split(mark)
                
                if splitted[1].isalnum():
                    
                    elements_with_sticks.append(element)
                    
                    element = f"{mark} ".join(splitted)
                    
        
        elements[i] = element
    
    return " ".join(elements), elements_with_sticks

wolof_text, elements_with_sticks = take_off(wolof_text)

wolof_text

'Doomu-aadama bu, ne ci ndey ak baay nga jóge. Mënunu leen a baň a gërëm ak a bëgg, doonte sax mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi fi, ak seen xar-kanam, seen taxawaay, seen defin ak seen jikko, seeni njuumte, seeni yaakaar, seen melokaanu loxook baaraami tànk, seen meloy bët ak karaw, seen waxin, seeni xalaat, amaana sax at ma ňuy nar a génne àddina. Loolu lépp, day àgg fu sore ci nun. Bi ma delloo dëkk ba ma juddoo, dama faa meloon ni gan. Du kenn ku ma fa xam, safatul dara ci man. Li nu jóge Afrig jur ci man tiis wu réy. Su ma yaboo sax ni mënuma woon a nangu ni maak samay way-jur dëkkëtuñu Niseryaa. Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it sama bopp cosaan lu bees. Àddinay dox ba Baay tollu ci noppalug liggéey, dellusi Tugal dëkk ak ňun. Ci la ma leere ni moom moomoo doon doomu Afrig. Mu doon nag lu naqadee nangu. Damaa mujjoon a delloo sama xel démb ngir lijjanti lépp la ca léjoon. Kon fàttalikoo meññ téere bu ndaw bii. Kanam gii ma judduwaale, am na 

In [244]:
elements_with_sticks

['ňun.Ci', 'doole.Waaye', 'fees.Waaye']

A sentence begins with a capital letter and finishes with one of the following punctuation marks: "." (period), "?" (question mark), or "!" (exclamation point). But the latter can also be used in the end of a expression, in ellipsis or for some types of abbreviations or acronyms. 

In place of wasting some times to identify all of them let us try again the `nltk sent_tokenize` function to find the different sentences.

In [245]:
sentences_w = nltk.tokenize.sent_tokenize(wolof_text, language="french")

In [246]:
print(sentences_w)

['Doomu-aadama bu, ne ci ndey ak baay nga jóge.', 'Mënunu leen a baň a gërëm ak a bëgg, doonte sax mën nanoo am xel ňaar ci ňoom.', 'Waaye ňu ngi fi, ak seen xar-kanam, seen taxawaay, seen defin ak seen jikko, seeni njuumte, seeni yaakaar, seen melokaanu loxook baaraami tànk, seen meloy bët ak karaw, seen waxin, seeni xalaat, amaana sax at ma ňuy nar a génne àddina.', 'Loolu lépp, day àgg fu sore ci nun.', 'Bi ma delloo dëkk ba ma juddoo, dama faa meloon ni gan.', 'Du kenn ku ma fa xam, safatul dara ci man.', 'Li nu jóge Afrig jur ci man tiis wu réy.', 'Su ma yaboo sax ni mënuma woon a nangu ni maak samay way-jur dëkkëtuñu Niseryaa.', 'Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it sama bopp cosaan lu bees.', 'Àddinay dox ba Baay tollu ci noppalug liggéey, dellusi Tugal dëkk ak ňun.', 'Ci la ma leere ni moom moomoo doon doomu Afrig.', 'Mu doon nag lu naqadee nangu.', 'Damaa mujjoon a delloo sama xel démb ngir lijjanti lépp la ca léjoon.', 'Kon fàttalikoo meññ téere bu n

We have abnormally more sentences than for the french corpus. We must make the same transformation as for the french corpus and compare the two contents.

We obtain a greater sentence tokenization than previously with `spacy`. But most of the quotation marks contains ending marks which make the tokenizer to send the ending quotation to the next sentence(s). For that problem we have two possible choices: 

1. We can take only the ending quotation and replace it in the right sentence; 

2. We can also take all of the next sentence containing the ending quotation and place in the sentence containing the beginning quotation. 

It is preferable to choose the second option. It can give a very long sentence but can take more of the context. 

We identified also some sentences with parentheses which are not correctly separated due to the fact that a sentence is inside the brackets. We must choose the first option for that case. 

In [247]:
corrected_sentences_w, not_corrected_w = unify_correction(sentences_w, unified_sentences_between_pos=[])

In [248]:
print(corrected_sentences_w)

['Doomu-aadama bu, ne ci ndey ak baay nga jóge.', 'Mënunu leen a baň a gërëm ak a bëgg, doonte sax mën nanoo am xel ňaar ci ňoom.', 'Waaye ňu ngi fi, ak seen xar-kanam, seen taxawaay, seen defin ak seen jikko, seeni njuumte, seeni yaakaar, seen melokaanu loxook baaraami tànk, seen meloy bët ak karaw, seen waxin, seeni xalaat, amaana sax at ma ňuy nar a génne àddina.', 'Loolu lépp, day àgg fu sore ci nun.', 'Bi ma delloo dëkk ba ma juddoo, dama faa meloon ni gan.', 'Du kenn ku ma fa xam, safatul dara ci man.', 'Li nu jóge Afrig jur ci man tiis wu réy.', 'Su ma yaboo sax ni mënuma woon a nangu ni maak samay way-jur dëkkëtuñu Niseryaa.', 'Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it sama bopp cosaan lu bees.', 'Àddinay dox ba Baay tollu ci noppalug liggéey, dellusi Tugal dëkk ak ňun.', 'Ci la ma leere ni moom moomoo doon doomu Afrig.', 'Mu doon nag lu naqadee nangu.', 'Damaa mujjoon a delloo sama xel démb ngir lijjanti lépp la ca léjoon.', 'Kon fàttalikoo meññ téere bu n

In [249]:
not_corrected_w

{'begin_mark_only': ['Ku ma laajoon fan laa nekk, ma ni la : « Man ?',
  'Li am daal, moo di ne ba mu nee dafa fay fekki Baay, xaritam ya dañoo meloon ni ñu tiit, ni ko : « Nga ni lan ?',
  'Ndaw si ni ma : « Loo koy doye ?',
  '» Ma ni ko : « Déedéet.'],
 'end_mark_only': ['» Gaal gi nag, du woon dara fu dul sunu néegu-ñax ba.',
  '» Tontu bu leer te gàtt la leen tontu : « Waa Pari gënuñu leen a nite benn yoon !',
  '» Ma ni ko : « Déedéet.',
  '» Mu jaaxle, laaj Baay lu tee mu wax ko mooy kan.']}

We identified another problem above which is the sentence's separation on a common abbreviation. We noticed many of that cases in the text. We must recombine those sentences with the ones just after them, beginning with a non capital letter. 

In [250]:
def lift_up_no_upper(sentences):
    
    corrected_sentences = [sentences[0]]
    
    for i in range(1, len(sentences)):
        
        if not sentences[i][0].isupper():
            
            corrected_sentences[-1] = corrected_sentences[-1] + " " + sentences[i]
        
        else:
            
            corrected_sentences.append(sentences[i])
        
    return corrected_sentences

corrected_sentences_w = lift_up_no_upper(corrected_sentences_w)

In [251]:
print(corrected_sentences_w)

['Doomu-aadama bu, ne ci ndey ak baay nga jóge.', 'Mënunu leen a baň a gërëm ak a bëgg, doonte sax mën nanoo am xel ňaar ci ňoom.', 'Waaye ňu ngi fi, ak seen xar-kanam, seen taxawaay, seen defin ak seen jikko, seeni njuumte, seeni yaakaar, seen melokaanu loxook baaraami tànk, seen meloy bët ak karaw, seen waxin, seeni xalaat, amaana sax at ma ňuy nar a génne àddina.', 'Loolu lépp, day àgg fu sore ci nun.', 'Bi ma delloo dëkk ba ma juddoo, dama faa meloon ni gan.', 'Du kenn ku ma fa xam, safatul dara ci man.', 'Li nu jóge Afrig jur ci man tiis wu réy.', 'Su ma yaboo sax ni mënuma woon a nangu ni maak samay way-jur dëkkëtuñu Niseryaa.', 'Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it sama bopp cosaan lu bees.', 'Àddinay dox ba Baay tollu ci noppalug liggéey, dellusi Tugal dëkk ak ňun.', 'Ci la ma leere ni moom moomoo doon doomu Afrig.', 'Mu doon nag lu naqadee nangu.', 'Damaa mujjoon a delloo sama xel démb ngir lijjanti lépp la ca léjoon.', 'Kon fàttalikoo meññ téere bu n

Let us save the current results.

In [252]:
# the third version
wolof_version_v3 = pd.Series(corrected_sentences_w, name = "wolof_version")

# save the version
pd.DataFrame(wolof_version_v3).to_csv("data/extractions/new_data/wolof_version_v3_sents.csv", index = False)

Let us verify the number of sentences that we finally got from the wolof corpus.

In [253]:
wolof_version_v3.shape[0]

1474

We finally got **1474** sentences. So almost 515 sentences are maybe not actually sentences since they don't match those in the french corpus. We will compare the french sentences with the wolof sentences to find the errors. 

One important process we can do is to count the number of points we have on each of french and wolof sentences going on two by two comparison. We know that each sentence must have at least one point and we already identified the different of end marks which can be **"."**, **"!"** or **"?"**.

Let us display for example 15 first sentences from the two corpora.

In [254]:
corpora_first_lines = pd.concat((french_version_v3.head(15), wolof_version_v3.head(15)), axis = 1)

corpora_first_lines

Unnamed: 0,french_version,wolof_version
0,Tout être humain est le résultat d’un père et ...,"Doomu-aadama bu, ne ci ndey ak baay nga jóge."
1,"On peut ne pas les reconnaître, ne pas les aim...","Mënunu leen a baň a gërëm ak a bëgg, doonte sa..."
2,"Mais ils sont là, avec leur visage, leurs atti...","Waaye ňu ngi fi, ak seen xar-kanam, seen taxaw..."
3,J’ai longtemps rêvé que ma mère était noire.,"Loolu lépp, day àgg fu sore ci nun."
4,"Je m’étais inventé une histoire, un passé, pou...","Bi ma delloo dëkk ba ma juddoo, dama faa meloo..."
5,"Puis j’ai découvert, lorsque mon père, à l’âge...","Du kenn ku ma fa xam, safatul dara ci man."
6,Cela a été difficile à admettre.,Li nu jóge Afrig jur ci man tiis wu réy.
7,"Il m’a fallu retourner en arrière, recommencer...",Su ma yaboo sax ni mënuma woon a nangu ni maak...
8,"En souvenir de cela, j’ai écrit ce petit livre.",Ca laa tàmbalee gént ni sama yaay nit ku ñuul ...
9,"De ce visage que j’ai reçu à ma naissance, j’a...","Àddinay dox ba Baay tollu ci noppalug liggéey,..."


We can see that the third French sentence corresponds to the eighth Wolof sentence, which indicates that the translation is not always literal. Additionally, some French sentences correspond to two Wolof sentences, which is a significant challenge for translation. 

**Conclusion**: It will not be easy to compare the two corpora literally since it would require finding the correspondence between the sentences before translating, which is very tedious in our case. 

Next, let us separate the corpora into paragraphs and compare them.

#### Document as paragraph

Let us take the `french_text_break` and the `wolof_text_break` variables (containing the texts with break lines) and add some processing before their usage.

Let us delete the too much spaces in the corpora.

In [255]:
# for the french corpus
french_text2 = "\n".join([" ".join(split_.split()) for split_ in french_text_break.split("\n")])

# for the wolof corpus
wolof_text2 = "\n".join([" ".join(split_.split()) for split_ in wolof_text_break.split("\n")])

Let us replace the elements containing word sticked on an end mark with their correct form in the wolof corpus.

In [256]:
elements_with_sticks

['ňun.Ci', 'doole.Waaye', 'fees.Waaye']

In [257]:
for element in elements_with_sticks:

    wolof_text2 = wolof_text2.replace(element, ". ".join(element.split(".")))

In [258]:
wolof_text2

'Doomu-aadama bu, ne ci ndey ak baay nga jóge.\nMënunu leen a baň a gërëm ak a bëgg, doonte sax\nmën nanoo am xel ňaar ci ňoom. Waaye ňu ngi\nfi, ak seen xar-kanam, seen taxawaay, seen defin\nak seen jikko, seeni njuumte, seeni yaakaar, seen\nmelokaanu loxook baaraami tànk, seen meloy bët\nak karaw, seen waxin, seeni xalaat, amaana sax at ma\nňuy nar a génne àddina. Loolu lépp, day àgg fu sore\nci nun.\n\nBi ma delloo dëkk ba ma juddoo, dama faa\nmeloon ni gan. Du kenn ku ma fa xam, safatul dara\nci man. Li nu jóge Afrig jur ci man tiis wu réy. Su\nma yaboo sax ni mënuma woon a nangu ni maak\nsamay way-jur dëkkëtuñu Niseryaa. Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it\nsama bopp cosaan lu bees. Àddinay dox ba Baay\ntollu ci noppalug liggéey, dellusi Tugal dëkk ak\nňun. Ci la ma leere ni moom moomoo doon doomu\nAfrig. Mu doon nag lu naqadee nangu. Damaa\nmujjoon a delloo sama xel démb ngir lijjanti lépp\nla ca léjoon. Kon fàttalikoo meññ téere bu ndaw bii.\n\n\n\n\n\

- french version

In [259]:
# display again the text
print(french_text2)

Tout être humain est le résultat d’un père et une mère. On
peut ne pas les reconnaître, ne pas les aimer, on peut douter
d’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs
manières et leurs manies, leurs illusions, leurs espoirs, la
forme de leurs mains et de leurs doigts de pied, la couleur
de leurs yeux et de leurs cheveux, leur façon de parler, leurs
pensées, probablement l’âge de leur mort, tout cela est passé
en nous.

J’ai longtemps rêvé que ma mère était noire. Je m’étais
inventé une histoire, un passé, pour fuir la réalité à mon
retour d’Afrique, dans ce pays, dans cette ville où je ne
connaissais personne, où j’étais devenu un étranger. Puis j’ai
découvert, lorsque mon père, à l’âge de la retraite, est revenu
vivre avec nous en France, que c’était lui l’Africain. Cela a
été difficile à admettre. Il m’a fallu retourner en arrière,
recommencer, essayer de comprendre. En souvenir de cela,
j’ai écrit ce petit livre.





De ce visage que j’ai reçu à ma naissance, j’

We will make the following processing on the text:

1. Combine two consecutive lines separated by only one break line "\n": We make it in order to delete as most break lines as possible. We will consider those lines as paragraphs;
2. Combine two consecutive paragraphs if the second doesn't begin with a capital letter: Some paragraphs continue to the next page and so it has two or more break lines between them;



Let us combine two consecutive lines by replacing the "\n"s by spaces.

In [260]:
def combine_lines(text: str, return_text: bool = True):
    
    lines = text.split("\n")
    
    paragraphs = [lines[0]]
    
    for i in range(1, len(lines)):
        
        if lines[i] != '':
            
            paragraphs[-1] = paragraphs[-1].strip() + " " + lines[i]
        
        else:
            
            if paragraphs[-1] != "":
                
                paragraphs.append("")

    if return_text:
        
        return "\n".join(paragraphs)
    
    return paragraphs

french_paragraphs = combine_lines(french_text2)

In [261]:
# print the resulted paragraphs
print(french_paragraphs)

Tout être humain est le résultat d’un père et une mère. On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous.
J’ai longtemps rêvé que ma mère était noire. Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger. Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain. Cela a été difficile à admettre. Il m’a fallu retourner en arrière, recommencer, essayer de comprendre. En souvenir de cela, j’ai écrit ce petit livre.
De ce visage que j’ai reçu à ma naissance, j’ai des

Let us recombine some faulty separated paragraphs. 

In [262]:
french_paragraphs = combine_lines(french_text_break, return_text=False)

def combine_paragraphs(paragraphs: list, return_text: bool = True, end_marks: list = [".", "!", "?", "»"]):
    
    new_paragraphs = [paragraphs[0].strip()]
    
    for i in range(1, len(paragraphs)):
        
        if not paragraphs[i][0].isupper() or not paragraphs[-1][-1] in end_marks: # paragraph cannot be finished other than by a end mark
            new_paragraphs[-1] = new_paragraphs[-1] + " " + paragraphs[i].strip()
        
        else:
            
            new_paragraphs.append(paragraphs[i].strip())
    
    if return_text:
        
        return "\n".join(new_paragraphs)
    
    return new_paragraphs

french_paragraphs = combine_paragraphs(french_paragraphs, False)

In [263]:
french_paragraphs

['Tout être humain est le résultat d’un père et une mère. On peut ne pas les reconnaître, ne pas les aimer, on peut douter d’eux. Mais ils sont là, avec leur visage, leurs attitudes, leurs manières et leurs manies, leurs illusions, leurs espoirs, la forme de leurs mains et de leurs doigts de pied, la couleur de leurs yeux et de leurs cheveux, leur façon de parler, leurs pensées, probablement l’âge de leur mort, tout cela est passé en nous.',
 'J’ai longtemps rêvé que ma mère était noire. Je m’étais inventé une histoire, un passé, pour fuir la réalité à mon retour d’Afrique, dans ce pays, dans cette ville où je ne connaissais personne, où j’étais devenu un étranger. Puis j’ai découvert, lorsque mon père, à l’âge de la retraite, est revenu vivre avec nous en France, que c’était lui l’Africain. Cela a été difficile à admettre. Il m’a fallu retourner en arrière, recommencer, essayer de comprendre. En souvenir de cela, j’ai écrit ce petit livre.',
 'De ce visage que j’ai reçu à ma naissance

Let us print the lines 221 and 222.

In [264]:
french_paragraphs[121], french_paragraphs[122]

('En 1968, tandis que mon père et ma mère regardent monter sous leurs fenêtres, à Nice, les montagnes d’ordures laissées par la grève générale, et tandis qu’à Mexico j’entends le vrombissement des hélicos de l’armée qui emportent les corps des étudiants tués à Tlatelolco, le Nigeria entre dans la phase terminale d’un massacre terrible, l’un des grands génocides du siècle, connu sous le nom de guerre du Biafra. Pour la mainmise sur les puits de pétrole à l’embouchure de la rivière Calabar, Ibos et Yoroubas s’exterminent, sous le regard indifférent du monde occidental. Pis encore, les grandes compagnies pétrolières, principalement l’anglo-hollandaise Shell-British Petroleum, sont partie prenante dans cette guerre, agissent sur leurs gouvernements pour que soient sécurisés les puits et les pipe-lines. Les États qu’elles représentent s’affrontent par procuration, la France du côté des insurgés biafrais, l’Union soviétique, l’Angleterre et les États-Unis du côté du gouvernement fédéral majo

The second line is a poem but the first line end with a colon. Then, let us combine the two lines. 

In [265]:
french_paragraphs = french_paragraphs[:121] + [french_paragraphs[121] + " " + french_paragraphs[122]] + french_paragraphs[123:]

Let us cut the footnote:

*"La réputation de douceur des gens de la région de Banso pourrait difficilement être généralisée
au reste de l’ouest du Cameroun. Dans une étude consacrée au peuple wiya de la province de Bamenda, le docteur Jeffries rapporte les atrocités dans la guerre qui les oppose depuis toujours aux Foulanis de Kishong : lorsque ces derniers capturent un Wiya, ils lui coupent les oreilles et tranchent ses deux bras à hauteur des coudes et, cousant ensemble les paumes, fabriquent ainsi une manière de collier qu’ils passent autour du cou du malheureux avant de le renvoyer à son village. Les armées d’occupation française et britannique tentèrent vainement de s’opposer à de telles exactions, aujourd’hui résurgentes dans certains pays d’Afrique de l’Ouest, comme le Liberia."*

in paragraph number 103, which describes the following sentence  

*"À Banso, à Bamenda, dans les
montagnes du Cameroun, mon père était sous le charme de la douceur et de l’humour des Africains"*.

**Remark1**: We want to remove the footnotes directly from the text.

**Remark2**: The corpus normally contains two footnotes but the first one was deleted during the first processing. It was describing the chapter title *"Bansoo"*.

In [266]:
footnotes = [("La réputation de douceur des gens de la région de Banso pourrait difficilement être généralisée au reste de l’ouest du Cameroun. Dans une étude consacrée au peuple wiya de la province de Bamenda, le docteur Jeffries rapporte les atrocités dans la guerre qui les oppose depuis toujours aux Foulanis de Kishong : lorsque ces derniers capturent un Wiya, ils lui coupent les oreilles et tranchent ses deux bras à hauteur des coudes et, cousant ensemble les paumes, fabriquent ainsi une manière de collier qu’ils passent autour du cou du malheureux avant de le renvoyer à son village. Les armées d’occupation française et britannique tentèrent vainement de s’opposer à de telles exactions, aujourd’hui résurgentes dans certains pays d’Afrique de l’Ouest, comme le Liberia.", 
                   "À Banso, à Bamenda, dans les montagnes du Cameroun, mon père était sous le charme de la douceur et de l’humour des Africains")]

def remove_footnotes_asterix(paragraphs: List, footnotes: List[Tuple[str, str]]):
    
    for i in range(len(paragraphs)):
        
        for footnote in footnotes:
            
            if footnote[0] in paragraphs[i]:
                
                paragraphs[i] = paragraphs[i].replace(f"* {footnote[0]}", "")
            
            if footnote[1] in paragraphs[i]:
                
                paragraphs[i] = paragraphs[i].replace(f"{footnote[1]}*", footnote[1])
    
    return paragraphs

french_paragraphs = remove_footnotes_asterix(french_paragraphs, footnotes)

Let us print the number of paragraphs in the french corpus.

In [267]:
len(french_paragraphs)

136

We have **136** paragraphs in the french corpus.

- Wolof version

In [268]:
# print the wolof corpus
print(wolof_text2)

Doomu-aadama bu, ne ci ndey ak baay nga jóge.
Mënunu leen a baň a gërëm ak a bëgg, doonte sax
mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi
fi, ak seen xar-kanam, seen taxawaay, seen defin
ak seen jikko, seeni njuumte, seeni yaakaar, seen
melokaanu loxook baaraami tànk, seen meloy bët
ak karaw, seen waxin, seeni xalaat, amaana sax at ma
ňuy nar a génne àddina. Loolu lépp, day àgg fu sore
ci nun.

Bi ma delloo dëkk ba ma juddoo, dama faa
meloon ni gan. Du kenn ku ma fa xam, safatul dara
ci man. Li nu jóge Afrig jur ci man tiis wu réy. Su
ma yaboo sax ni mënuma woon a nangu ni maak
samay way-jur dëkkëtuñu Niseryaa. Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it
sama bopp cosaan lu bees. Àddinay dox ba Baay
tollu ci noppalug liggéey, dellusi Tugal dëkk ak
ňun. Ci la ma leere ni moom moomoo doon doomu
Afrig. Mu doon nag lu naqadee nangu. Damaa
mujjoon a delloo sama xel démb ngir lijjanti lépp
la ca léjoon. Kon fàttalikoo meññ téere bu ndaw bii.





Kanam gii ma judduwaale, a

Let us make the same processing as for the french version.

In [269]:
wolof_paragraphs = combine_lines(wolof_text2, return_text=False)

wolof_paragraphs = combine_paragraphs(wolof_paragraphs, False)

In [270]:
print(wolof_paragraphs)

['Doomu-aadama bu, ne ci ndey ak baay nga jóge. Mënunu leen a baň a gërëm ak a bëgg, doonte sax mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi fi, ak seen xar-kanam, seen taxawaay, seen defin ak seen jikko, seeni njuumte, seeni yaakaar, seen melokaanu loxook baaraami tànk, seen meloy bët ak karaw, seen waxin, seeni xalaat, amaana sax at ma ňuy nar a génne àddina. Loolu lépp, day àgg fu sore ci nun.', 'Bi ma delloo dëkk ba ma juddoo, dama faa meloon ni gan. Du kenn ku ma fa xam, safatul dara ci man. Li nu jóge Afrig jur ci man tiis wu réy. Su ma yaboo sax ni mënuma woon a nangu ni maak samay way-jur dëkkëtuñu Niseryaa. Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it sama bopp cosaan lu bees. Àddinay dox ba Baay tollu ci noppalug liggéey, dellusi Tugal dëkk ak ňun. Ci la ma leere ni moom moomoo doon doomu Afrig. Mu doon nag lu naqadee nangu. Damaa mujjoon a delloo sama xel démb ngir lijjanti lépp la ca léjoon. Kon fàttalikoo meññ téere bu ndaw bii.', 'Kanam gii ma judduwaale,

Let us print the lines 101, 102 and 103.

In [271]:
wolof_paragraphs[99:102]

['Atum 1968 agsi, di at mu bariy yëngu-yëngu. Ma nekk Meksikoo, làrmeb nguur gi rey fay ndongoy daara ca Talatelókoo, ay fafal-naaw yu ndaw di for néewu gone yiy yóbbu ; ca Niis, liggéeykat yi bank seen loxo, samay ñaari way-jur sëppu seen palanteer di gis ni mbalit mi juugee ci mbedd mi ; fekk na Niseryaa, xareb Biyaafaraa baa ngay waaj a jeex ; mu doon faagaagal bi gënoon a ñaaw ci xarnu bi. Nattu doomi Biyaafaraa moo doon petorool ba ni fa woon gàññ ci bëlub Kalabaar. Ibo yeek Yoruba yiy reyante, réewi Tugal yiy seetaan, naan tey mu neex. Jaaykatu petorool yu mag yi ñoom, rawati-na « Shell-British Petroleum », maanduwuñu dara ci mbir mi ; ñuy soňň seeni gornmaa ngir ňu aar teeni petorool ya ca Niseryaa. Ku nekk, nag, am foo far, Frãs di jàppale way-fippuy Biyaafaraa yi ; Riis yi, Àngalteer ak Amerig ànd ak gornmaa bu Legoos. Yëf yi dem ba ëpp loxo, xeexu Ibo yeek Yorubaa yi daldi soppiku xare diggante kerceen ak jullit, ñii di tuumaal ñee, naan dañoo taxaw ci tànku pasar-pasaree ala

The second and third lines are the poem and the first finish with a colon. They constitute one paragraph. So let us combine them.

In [272]:
wolof_paragraphs = wolof_paragraphs[:99] + [wolof_paragraphs[99] + " " + wolof_paragraphs[100] + " " wolof_paragraphs[101]] + wolof_paragraphs[102:]

In [273]:
wolof_paragraphs

['Doomu-aadama bu, ne ci ndey ak baay nga jóge. Mënunu leen a baň a gërëm ak a bëgg, doonte sax mën nanoo am xel ňaar ci ňoom. Waaye ňu ngi fi, ak seen xar-kanam, seen taxawaay, seen defin ak seen jikko, seeni njuumte, seeni yaakaar, seen melokaanu loxook baaraami tànk, seen meloy bët ak karaw, seen waxin, seeni xalaat, amaana sax at ma ňuy nar a génne àddina. Loolu lépp, day àgg fu sore ci nun.',
 'Bi ma delloo dëkk ba ma juddoo, dama faa meloon ni gan. Du kenn ku ma fa xam, safatul dara ci man. Li nu jóge Afrig jur ci man tiis wu réy. Su ma yaboo sax ni mënuma woon a nangu ni maak samay way-jur dëkkëtuñu Niseryaa. Ca laa tàmbalee gént ni sama yaay nit ku ñuul la, di sàkkal it sama bopp cosaan lu bees. Àddinay dox ba Baay tollu ci noppalug liggéey, dellusi Tugal dëkk ak ňun. Ci la ma leere ni moom moomoo doon doomu Afrig. Mu doon nag lu naqadee nangu. Damaa mujjoon a delloo sama xel démb ngir lijjanti lépp la ca léjoon. Kon fàttalikoo meññ téere bu ndaw bii.',
 'Kanam gii ma judduwaal

Let us cut the footnote:

*"Su dee mën na ñoo yëkkati kàddu yu rafet yooyu jëmale ko ci waa Bansoo it, ku jàpp ni noonu la sowub Kamerun yépp mel, juum nga. Cib gëstu bu mu jagleel askanu Wiyaa yi ci tundu Bamendaa, doktoor Sefiriis a ngi ciy nettali ni Pëli Kisoŋ yeek Wiyaa yi yàggee bañantee, yàgg a xare ci seen biir. Nee na, bés Pël yi dañoo jàpp benn Wiyaa, dagg ňaari noppam, loolu doyu leen ñu dagg ňaari loxoom ci conco yi, ňawandooy tenqam. Liñ ko dugge woon, moo doon ñawal ko xeetu caq bu doy waar boobu, jaarale ko ci loos wi, door koy bàyyi mu dellu dëkkam. Soldaari faraňse yi ak àngale yi tegoon loxo Kamerun jéem naňu lu ne ngir dakkal ñaawtéef yooyu. Waaye seeni pexe àntuwul. Tey jii sax, lu ni mel dekki na ca Liberyaa, di moom itam réewu Afrig sowu-jant."*

in paragraph number 86, which describes the following sentence  

*"Muy Bansoo di Bamendaa,
ca tundi Kamerun ya, neex deret ak am xoroom
la Baay daan seetlu ci nit ñi"*.

**Remark1**: We want to remove the footnotes directly from the text.

**Remark2**: The corpus normally contains two footnotes but the first one was deleted during the first processing. It was describing the chapter's title *"Bansoo"*.

In [274]:
footnotes = {"2": ("Su dee mën na ñoo yëkkati kàddu yu rafet yooyu jëmale ko ci waa Bansoo it, ku jàpp ni noonu la sowub Kamerun yépp mel, juum nga. Cib gëstu bu mu jagleel askanu Wiyaa yi ci tundu Bamendaa, doktoor Sefiriis a ngi ciy nettali ni Pëli Kisoŋ yeek Wiyaa yi yàggee bañantee, yàgg a xare ci seen biir. Nee na, bés Pël yi dañoo jàpp benn Wiyaa, dagg ňaari noppam, loolu doyu leen ñu dagg ňaari loxoom ci conco yi, ňawandooy tenqam. Liñ ko dugge woon, moo doon ñawal ko xeetu caq bu doy waar boobu, jaarale ko ci loos wi, door koy bàyyi mu dellu dëkkam. Soldaari faraňse yi ak àngale yi tegoon loxo Kamerun jéem naňu lu ne ngir dakkal ñaawtéef yooyu. Waaye seeni pexe àntuwul. Tey jii sax, lu ni mel dekki na ca Liberyaa, di moom itam réewu Afrig sowu-jant.", 
                   "Muy Bansoo di Bamendaa, ca tundi Kamerun ya, neex deret ak am xoroom la Baay daan seetlu ci nit ñi")}

def remove_footnotes(paragraphs: List, footnotes: Dict[str, Tuple[str, str]]):
    
    for i in range(len(paragraphs)):
        
        for number, footnote in footnotes.items():
            
            if footnote[0] in paragraphs[i]:
                
                paragraphs[i] = paragraphs[i].replace(f"{number} {footnote[0]}", "")
            
            if footnote[1] in paragraphs[i]:
                
                paragraphs[i] = paragraphs[i].replace(f"{footnote[1]}{number}", footnote[1])
    
    return paragraphs

wolof_paragraphs = remove_footnotes(wolof_paragraphs, footnotes)

Let us print the number of paragraphs in the wolof corpus.

In [275]:
len(wolof_paragraphs)

113

We have **113** paragraphs in the wolof corpus which is less important than the number of french paragraphs. 

**Conclusion**: We have fewer paragraphs in the French corpus than in the Wolof corpus. We have two options to resolve this issue:

1. Combine some French paragraphs after their comparison with the Wolof paragraphs;
2. Separate some Wolof paragraphs to obtain **136** ones after comparing them with the French paragraphs.
3. Make the two previous processing based on the fact that the French corpus is more accurate. 

We will take the third option which will make us add correction on the two corpora. After verification, we found that most of the French paragraphs correspond to that of the book so most of the correction will be added on the wolof corpus.

Let us save the paragraphs that we obtained for the moment and make, after, a further investigation.

In [157]:
# pd.DataFrame(french_paragraphs).to_csv("data/extractions/new_data/french_paragraphs.csv", index=False)
# pd.DataFrame(wolof_paragraphs).to_csv("data/extractions/new_data/wolof_paragraphs.csv", index=False)

-----------------------------

#### Paragraph matching:
In the current segment, we will verify what paragraphs match the French and Wolof corpora and identify which do not fit and why.



The following numbers are the paragraphs' positions that match correctly between them (and their corresponding contexts in french) and we will add also all separations and combination made manually on the line:

**Note that with the separations we make comparison between the wolof, french paragraphs or/and with the original ones from the books. We use the signature: `french/wolof paragraphs' positions (context) -> wolof/french paragraph' position "beginning of the paragraphs...".`**

**For the combination we indicate the version and the positions of the two combined paragraphs.**

**Note also that each correction can change the position of the upcoming paragraphs.**

- 1: La maniere dont les parents nous facine
- 2: Rappel Afrique
- 3: Apparence personnelle
- 4: La tranquilité avec les parents et habitation

------- Forgotten separation (the beginning of the paragraph 5 correspond to the end of paragraph 4. We maintain the french paragraph) 
- french 4' (end of "La tranquilité avec les parents et habitation"), 5 (habitat naturel) -> wolof 5 "Fa la sama xar-kanam...", "Ay yarami nit di ma feeňu..."

------- Forgotten combination ---------------------------
- wolof 4 and wolof 5

------- First separation ---------------------------
- french 5 (habitat naturel), 6 (Un réseau humain), 7 (Pas de mot pour decrire), 8 (L'entrée de Obudu) -> wolof 5 "Ay yarami nit di ma feeňu...", "Ca Afrig...", "Gone...", "Sooy dugg Óbudu..."

------- First combination ---------------------------
- wolof 8 and wolof 9



- 9: Chaleur de l'Afrique

------- Second separation ---------------------------
- french 10 (Nouvelle vie en Afrique), 11 (La liberté à Ogoja) -> wolof 10 "Ci biir saxaaru-géej...", "Ogosaa, kenn naju fa kenn..."


------- Second combination ---------------------------
- wolof 12 and wolof 13

------- Third separation ---------------------------
- french 12 (La différence environnementale), 13 (La violence naturelle) -> wolof "Ogosaa, leneen la woon..."




- 14: Une situation exceptionnelle en Afrique 

------- Third combination ---------------------------
- wolof 14 and wolof 15

- 15: Le peu de souvenir qu'il reste

------- Fourth separation ---------------------------
- french 16 (Se souvenir pour oublier), 17 (Vie sauvage) -> wolof 16 "Fii laa dunde...", "Tugal soof ma. Ogosaa..."

------- Fifth separation ---------------------------
- french 18 (Un regard lointain vers l'horizon), 19 (Preoccupation quotidienne) -> wolof 18 "Boo weesuwaan tóokër ba...", "Waaye xale bu ndaw laa booba..."

- 20: Nouveaux bandes de copains
- 21: Pas d'interdiction dans cette nouvelle vie


------- Sixth separation ---------------------------
- french 22 (Climat d'Ogoja), 23 (Course sauvage dans la plaine) -> wolof 22 "Tàngaay bi may wax,...", "Bés nag, nu song joor..."

------- Fourth combination ---------------------------
- wolof 23 and wolof 24


------- Seventh separation ---------------------------
- french 23, 24 (Les chateaux) -> wolof 23 "Bés nag, nu song joor...", "Biñ yeggee ci diggu joor..."

------- Seventh separation ---------------------------
- wolof 24 (Les chateaux), 25 (Rencontre avec les termites) -> french 24 "Au milieu de la plaine...", "Nous savions que c’était la ville des termites."

------- Fourth combination ---------------------------
- wolof 26 and wolof 27

------- Eighth separation ---------------------------

- wolof 26 (Destruction des termitieres), 27 (La legende des termites) -> french 26 "Comment l’avons-nous su ?...", "Les enfants du village n’étaient..."

------- Ninth separation ---------------------------
- french 28 (Hors controle), 29 (Si nous etions restés) -> wolof 28 "Nun nag, ñoo doon njaay-àll yi...", "Xéy-na mbir mi deme..."

- 30: Oubli de Nice
- 31: La presence des fourmis

------- Tenth separation ---------------------------
- french 32 (Puissance des fourmis), 33 (Premiere rencontre avec une fourmis) -> wolof 32 "Mellentaani Ogosaa yee fi gënoon...", "Maa ngi fàttaliku nañ..."

------- Eleventh separation (french and wolof) -----------
- french 34 (Rencontre des parents avec les fourmis) "Une anecdote, une simple anecdote...", 35 (Le silence des fourmis) "Cette histoire, combien de fois..." -> wolof 34 "Gone gu ay mellentaan màtt...", 35 "Xew-xew boobu, ñaata..."

------- Fourth combination ---------------------------
- french 36 and french 37

------- Twelfth separation -----------
- french 36 (Les cancrelats), 37 (Les amis les scorpions) -> wolof 36 "Ogosaa, xaritoo woon nan faak...", "Ogosaa, xaritoo woon nan faak..."


------- Thirteenth separation -----------
- wolof 37 (Les amis les scorpions), 38 (Colonisation des insectes) -> french 37 "Nous avions découvert d’autres...", "J’ai du mal aujourd’hui..."

------- Fifth combination ---------------------------
- wolof 39 and wolof 40

- 39: Souvenir terrible avec le scorpion
- 40: Une famille reunie à chaque nuit


- 41: Mon pere Medecin a Guyane
- 42: Nouvelle rencontre avec mon pere

------- Fourteenth separation -----------
- french 43 (Separation a cause de la guerre), 44 (Humeur de guerre) -> wolof 43 "Liy firndeel cofeel gu réy...", "Mbaa du li dunyaa..."

------- Fifteenth separation -----------
- french 45 (Vie active de mon pere), 46 (S'il avait fait autrement) -> wolof 45 "Baay mas na maa nettali...", "Waaw, su Baay..."

- 47: Un mauvais choix


------- Sixteenth separation -----------
- french 48 (Le revetement de mon pere au retour), 49 (A quoi s'attendre ?) -> wolof 48 "Lan moo dugal...", "Yaakaar naa ne ba..."

- 50: Grand-mere et grand-mere
- 51: Charmante mere et betises d'enfance
- 52: Traumatisme de l'enfance
- 53: L'Afrique met fin au traumatisme
- 54: Jeune pere parti a Guyane


------- Seventeenth separation -----------
- french 55 (Eloigmenent du au passé), 56 (sept ans de vie de mon pere a Londres) -> wolof 55 "Ndax musibam Mokaa waraloon...", "Lu tollook juróom-ňaari at..."

------- Eighteenth separation -----------
- french 57 (Temps de repit pour le pere), 58 (Decision ferme de partir), 59 (Prise de photos du paysage) -> wolof 57 "Lenn doŋŋ ay...", "Loolu lépp amul solo ci gis-gisu Baay...", "Foo ko fekk mu ngi..."

------- Sixth combination ---------------------------
- wolof 59 and wolof 60

------- Twelfth separation -----------
- french 59 (Prise de photos de paysage), 60 (Photos representant l'interieur du continent) -> wolof 59 "Foo ko fekk mu ngi...", "Li ëpp ci nataal yi Baay..."

------- Twenty firth separation -----------
- french 61 (Rencontre dans le fleuve), 62 (Mon tour de voyager dans les fleuves indiennes), 63 (Les indiens veulent te revoir) -> wolof 61 "Ndox may balle Kaburi ak...", "Teg nañ ciy at, ay at yu bare sax...", "Bi ma jógee ci dëkki Enjeŋ yi,..."

64: De Guyane a l'Afrique


------- Twenty second separation -----------
- french 65 (Un Nigeria plus terrible que Guyane), 66 (Ma comprehension de son vecue a travers ses objets) -> wolof 65 "Xare bi jeex, ñu tek...", "Loolu lépp, maa ngi ko door..."

------- Seventh combination ---------------------------
- wolof 66 and wolof 67

- 67: Les enciens habitudes de mon pere sont restées


------- Eighth combination ---------------------------
- french 68 and french 69

------- Ninth combination ---------------------------
- wolof 68 and wolof 69

------- Twenty third separation -----------

- wolof 68 (Vision de l'Afrique par mon pere), 69 (Colere de mon pere contre le colonialisme) -> french 68 "L’Afrique, pour mon père, a commencé...", "C’est cette image que mon père"

------- Twenty fourth separation -----------
- french 69 (Colere de mon pere contre le colonialisme), 70 (Une instinctive repulsion contre le colonialisme), 71 (Une bonne impression de ma mere de l'Afrique) -> wolof 69 "Njaayum puukare...", "Ndax Baay daan na wax...", "Amaana sunu gis-gisu..."

------- Tenth combination ---------------------------
- wolof 71 wolof 72

- 72: Les premieres images de l'Afrique de par mon pere
- 73: La baie de Victoria
- 74: Les années les plus heureuses de mon pere



------- Twenty fifth separation -----------
- french 75 (Foresty House avec ses alentours), 76 (Installation dans la maison a Bamenda) -> wolof 75 "Këram a ngi tudd Forestry House...", "Bamendaa la Baay yóbbu sama..."


- 77: Voyage de mes parents avec les employés
- 78: Les inséparables amis 
- 79: Demenagement a Banso


------- Twenty sixth separation -----------
- french 80 (Le territoire de Banso), 81 (Les marques du pays) -> wolof 80 "Gox bi mu yilif nag, yaatu...", "Lu mat fukki at ak juróom..."

------- Twenty seventh separation -----------
- french 82 (La civilisation presentes sur le territoire), 83 (Les clichés d'admiration) -> wolof 82 "Su weesoo dénd wi làrme...", "Portale yi fi Baay jël..."

- 84: Liberté jamais percue ailleur de mes parents sur ces terres
- 85: On peut ressentir l'emotion qu'ils eprouvent


------- Twenty eighth separation -----------
- french 86 (La difficulté qui va avec la liberté), 87 (Les tournées médicales) -> wolof 86 "Xam naňu it lu tés-tési...", "Mook Baay ñu ànd di wër..."

------- Eleventh combination ---------------------------
- wolof 87 and wolof 88

------- Twenty ninth separation -----------
- french 87 (Les tournées médicales), 88 (Jeunesse de mes parents dans un pays decolonisé) -> wolof 87 ""Mook Baay ñu ànd di wër...", "Bansoo : amul béréb bu..."

------- Thirtieth separation -----------
- french 89 (Rencontre avec le roi), 90 (Danses dans la chaleur de la nuit) -> wolof 89 "Bu ñu agsee ci dëkk...", 90 "Am nay guddi yu, nit ñi..."

------- Thirty firth separation -----------
- wolof 90, 91 (Nuit de noces sous le son des tambours) -> french 90 "Parfois, au cours de leur route...", "Cela commence au déclin du soleil..." 

------- Thirty second separation -----------
- french 92 (Avant la cassure du a la guerre), 93 (Le bonheur qui m'a fait naitre), 94 (La memoire liee à l'environnement) -> wolof 92 "Su ma bëggee xam lu...", "Su lii dul bànneex it...", "Ay béréb laay fàttaliku..."

------- Thirty third separation -----------
- french 95 (Ahidjo et le « docteur » Jeffries), 96 (Les letters d'Ahidjo) -> wolof 96 "Mbir mi dafa am doole...", "Lu mat ay at,..."

------- Twelfth combination ---------------------------
- wolof 96 and wolof 97

- 97: La disparition soudaine du passé
- 98: D'abord en France puis en Bretagne avant la guerre
 


------- Twelfth combination ---------------------------
- french 99 and french 100

- 99: L'arrivee des troupes allemandes et depart de ma mere
- 100: Voyage dans le desert en vain de mon pere pour nous rejoindre
- 101: La perte du gout de la liberte
- 102: Ogoja en ce temps la
- 103: Une maison differente de celle de Bamenda
- 104: Comment faisait-il sans sa famille ?


------- Thirty fourth separation -----------
- wolof 105 (Le travail devient une obsession), 106 (Mon pere n'était plus à l'aise avec la medecine) -> french 105 "Son travail de médecin devient...", "Alors mon père découvre, après toutes..."

------- Thirty fifth separation (french and wolof) -----------
- french 107 (Sorcellerie et cannibalisme a Ogoja) "Il y a la violence aussi...", 108 (Il effectua des autopsies) "Mon père nous répète ces récits..." -> wolof 107 "Jaayante doole yit...", "Du benn du ñaar..."

------- Thirteenth combination ---------------------------
- wolof 108 and wolof 109

------- Thirty sixth separation -----------
- french 108 (Il effectua des autopsies), 109 (L'impossibilité d'arriver au bout de sa tache) -> wolof 108 "Du benn du ñaar,...", "Li muy dund, woroo na lool..."

110: La mort du jeune Ibo et le traumatisme du pere.

------- Thirty seventh separation -----------
- french 111 (Il etait different des hommes du cercle de ma grand mere), 112 (Les habitudes particulieres de l'homme qui m'est apparu), 113 (L'autorité du pere) -> wolof 111 "Nit ki ma dajeel ci...", "Nit ki ma teerusi ci...", "Nu jàng it ni Baay mii de..."

------- Fourteenth combination ---------------------------
- wolof 113 and wolof 114

- 114: La religion etait devenu une importance capitale
- 115: Peut-etre sans les evenements a Banso et Bamenda aurait il ete autrement


------- Thirty eighth separation -----------
- french 116 (Il m'est possible de regreter ce rendez-vous), 117 (Il aurait fallu grandir a cote de lui et non devoir le fuir a son retour) -> wolof 116 "Tey, su sama xel delloo...", "Su doon sunu sago,..."

------- Thirty ninth separation -----------
- wolof 117 (Il aurait fallu grandir a cote de lui), 118 (Nous menions une guerre sournoise contre lui) -> french 117 "Il aurait fallu grandir...", "Au lieu de cela, nous menions..."

------- Fifteenth combination ---------------------------
- french 118 and french 119

- 119: Avec le recul on comprend qu'il s'agissait d'education
- 120: En plus de l'etablissement de regles de societes (notammant islamique)
- 121: On ne pouvait insensible a sa nature


------- Fortieth separation -----------
- french 122 (Contre le colonialisme), 123 (C'etait la voix de l'Afrique en lui) -> wolof 122 "Ñaar fukki at ak ňaar yi...", "Lu soxaloon Baay a ngoog..."

- 124: L'avenement de l'independence en Afrique etait un soulagement et contre la guerre en Algerie
- 125: La mort du pere a l'arrivee du sida et l'hypocrisie des puissances coloniales
- 126: La modernité s'emparent de l'Afrique
- 127: L'impact des guerres civiles en Afrique et l'opportunité saisis par les pays Europeens
- 128: Regarder la terre de mon enfance mourir a petit feu
- 129: Apres la destruction de son pays ou il a vecu et son hospitalisation
- 130: C'est a l'Afrique que ce souhaite revenir
- 131: Il me semble parfois retourner a Ogoja en marchant dans les rues
- 132: Souvenirs des enfants et des dieux en argiles que j'avais concus



------- Forty firth separation -----------

- french 133 (Souvenirs des sensations du crepuscule et de la tombee de la nuit), 134 (Tout cela est si loin, si proche) -> wolof 133 "Timis jot na...", "Xamatuma sax man at la woon waaye..."

- 135: Ce qui est definitivement absent de mon enfance
- 136: Je me souviens de toute la liberte
- 137: Le tresor en moi
- 138: Que serait devenu sans cette connaissance de l'Afrique ?

------- Sixteenth combination ---------------------------
- wolof 139 and wolof 140

------- Forty second separation -----------
- french 139 (Malgre une nouvelle vie je n'oublie pas), 140 (C'est en l'ecrivant que j'arrive a me souvenir de tout) -> wolof 139 "Tey, mënal naa sama bopp", "Bi ma demee ba sori ci mbindum...


- 141: Peut-etre en fin de compte mon reve encien de me trompait pas

We finally obtain **141** paragraphs for the two corpora, and each French paragraph matches the Wolof paragraph in the same position. As we specified above, each paragraph can be contextualized. But we remark that some paragraphs should be shorter to contain more than one context.   

We will work for the moment on the paragraphs; if more is needed, we will separate each paragraph according to its context.

----------------------------------

#### Save the data frame and work on it

Let us load combine the paragraphs in a unique data frame in order to make a further processing on them. 

In [40]:
# Recuperate the paragraphs and save them in the same with new names 
# french_version_v4 = pd.read_csv("data/extractions/new_data/french_paragraphs.csv")

# wolof_version_v4 = pd.read_csv("data/extractions/new_data/wolof_paragraphs.csv")

# # Change the names
# french_version_v4.rename(columns={'0': "french_corpus"}, inplace=True)

# wolof_version_v4.rename(columns={'0': "wolof_corpus"}, inplace=True)

# french_version_v4.to_csv("data/extractions/new_data/french_version_v4.csv", index=False)

# wolof_version_v4.to_csv("data/extractions/new_data/wolof_version_v4.csv", index=False)

#------- load again -----------
french_version_v4 = pd.read_csv("data/extractions/new_data/french_version_v4.csv")

wolof_version_v4 = pd.read_csv("data/extractions/new_data/wolof_version_v4.csv")



In [41]:
# combine the paragraphs in a unique DataFrame
corpora_v1 = pd.concat((french_version_v4, wolof_version_v4), axis=1)



In [42]:
# load the head
corpora_v1.head(20)

Unnamed: 0,french_corpus,wolof_corpus
0,Tout être humain est le résultat d’un père et ...,"Doomu-aadama bu, ne ci ndey ak baay nga jóge. ..."
1,J’ai longtemps rêvé que ma mère était noire. J...,"Bi ma delloo dëkk ba ma juddoo, dama faa meloo..."
2,"De ce visage que j’ai reçu à ma naissance, j’a...","Kanam gii ma judduwaale, am na lu bari lu ma c..."
3,"À l’âge de huit ans à peu près, j’ai vécu en A...",Daanaka bi ma tolloo ci juróom-ňetti at laa to...
4,"De ce temps, pour ainsi dire consécutivement, ...","Ay yarami nit di ma feeňu, nag. Sama yaram, sa..."
5,"En Afrique, l’impudeur des corps était magnifi...","Ca Afrig, ňàkk kersag yaram yi lu yéemoon na m..."
6,"Quand on est enfant, on n’use pas de mots (et ...","Gone, du jëfandikooy baat. Rax-ci-dolli, baat ..."
7,"L’entrée dans Obudu, je m’en souviens bien : l...","Sooy dugg Óbudu, dangay won àll bi ginnaaw. No..."
8,"L’Afrique, c’était le corps plutôt que le visa...","Su ma nee Afrig, jëmmu doom-aadama moo may tax..."
9,Ce que je recevais dans le bateau qui m’entraî...,Ci biir saxaaru-géej gi sama xel a ngi wëndéel...


In [44]:
# save the corpora
corpora_v1.to_csv("data/extractions/new_data/corpora_v1.csv", index=False, encoding='utf-16')

Let us make the processing of the corpora in the following notebook [text processing1](text_processing1.ipynb). Go ahead to see the next steps.