The purpose of this notebook is to parse the files of the eulogies that are in .txt and to save them in dataframes with the author, the scientist it is about and the date of the eulogy.

In [1]:
import pandas as pd
import re

#https://ipython.org/ipython-doc/3/config/extensions/autoreload.html

%load_ext autoreload
%autoreload 2

# 1. Parsing the Fouchy eulogies

### Parsing the Fouchy txt

In [2]:
DATA_FOLDER = './../Data/Txt/'


#https://www.pythontutorial.net/python-basics/python-read-text-file/


#Loading the Fouchy eulogies, loaded as rb because otherwise exception raised of invalid start byte
with open(DATA_FOLDER + 'fouchy_txt.txt', 'rb') as f:
    lines = f.readlines()

In [3]:
lines[0][0:200]



In [4]:
# we decode the data encrypted in Bytes using 'mac_roman' to correctly output special characters like ê
# https://docs.python.org/fr/3/library/codecs.html
lines[0][0:200].decode("mac_roman")



In [5]:
# Decode every line and store every line in a new list

line_dec = []

for l in lines :
    line_dec.append(l.decode("mac_roman"))

In [6]:
# Parse the different eulogies from the lines with the scientist, author, year and eulogy

# https://stackoverflow.com/questions/44258529/get-string-between-two-strings/44258570


def get_info_fouchy(string):
    savant = re.findall('<savant>(.+?)<auteur>', string)[0].replace('\r', '').strip()
    auteur = re.findall('<auteur>(.+?)<annee>', string)[0].replace('\r', '').strip()
    annee = string.split('<annee>')[1][1:5]
    eloge = string.split('<annee> ' + str(annee))[1].strip()
    return savant, auteur, annee, eloge

In [7]:
get_info_fouchy(line_dec[0])

('De Bragelongne',
 'Fouchy',
 '1744',
 "Christophe-Bernard de Bragelongne, Prêtre, Doyen et Comte de l’Église de St. Julien de Brioude, naquit à Paris en 1688, de Christophe de Bragelongne, Conseiller au Parlement, et de Charlotte Pinette de Charmois. \\n La maison de Bragelongne est extrêmement ancienne : elle remonte par des titres et des filiations bien prouvées, au moins jusqu’à l’an 1400 ; mais ce qui doit encore plus en relever l’éclat, c’est qu’elle n’a jamais cessé de produire d’excellents sujets qui ont rempli avec distinction les premières places de la Robe et de l’Épée : espèce de Noblesse toujours renaissante, la seule qui mérite la vénération des peuples et les faveurs du Souverain. Le jeune Bragelongne donna dès ses plus tendres années des marques d’un esprit vif et pénétrant. Il fit ses études au Collège des Jésuites de Paris, et réussit également dans tous les genres de Littérature qui lui furent proposés. Grec, Belles Lettres, Philosophie, Mathématiques, tout s’imprim

In [8]:
print("Number of eulogies : " + str(len(line_dec)))

Number of eulogies : 20


In [9]:
# Printing to check that it is correct

for l in line_dec :
    savant, auteur, annee, eloge = get_info_fouchy(l)
    print("=======")
    print("Savant  : " + savant)
    print("Auteur : " + auteur)
    print("Annee : " + annee)
    print("Debut eloge : " + eloge[0:30])


Savant  : De Bragelongne
Auteur : Fouchy
Annee : 1744
Debut eloge : Christophe-Bernard de Bragelon
Savant  : De Torcy
Auteur : Fouchy
Annee : 1746
Debut eloge : Jean-Baptiste Colbert, Marquis
Savant  : La Peyronnie
Auteur : Fouchy
Annee : 1747
Debut eloge : Francois de La Peyronnie naqui
Savant  : Bernoulli
Auteur : Fouchy
Annee : 1748
Debut eloge : Jean Bernoulli naquit à Bâle l
Savant  : D'Aiguillon
Auteur : Fouchy
Annee : 1750
Debut eloge : Armand-Louis du Plessis de Ric
Savant  : De Crouzas
Auteur : Fouchy
Annee : 1750
Debut eloge : Jean-Pierre de Crouzas naquit 
Savant  : Petit
Auteur : Fouchy
Annee : 1751
Debut eloge : Jean-Louis Petit naquit à Pari
Savant  : Terrasson
Auteur : Fouchy
Annee : 1751
Debut eloge : Jean Terrasson naquit à Lyon e
Savant  : D’Aguesseau
Auteur : Fouchy
Annee : 1751
Debut eloge : Henri-François D’Aguesseau, Ch
Savant  : D'Albert
Auteur : Fouchy
Annee : 1752
Debut eloge : Charles, Marquis d’Albert, La 
Savant  : Geoffroy
Auteur : Fouchy
Annee : 1752
Debut

### Save to dataframe

In [10]:
# https://stackoverflow.com/questions/13784192/creating-an-empty-pandas-dataframe-then-filling-it
# Save the newly parsed data as a dataframe with columns 'Savant' 'Auteur' 'Annee' 'Eloge'


DF_PATH = './../Data/Dataframes/'

def save_as_df(name_func, line_dec_func, name, PATH = DF_PATH) :
    '''
    Method to save the eulogies as dataframes with columns 'Savant', 'Auteur', 'Annee', 'Eloge'
    Inputs :
        - name_func (function): name of the function that extracts the information of all eulogies
                                given a list of lines 
        - line_dec_func (list of str) : list of strings where each element of the list contains an eulogy
        - name (str) : name to store the created dataframe
        - PATH (str) : path where to save the dataframe created, by default './../Data/Dataframes/'
    '''
    data = []

    for l in line_dec_func :
        savant, auteur, annee, eloge = name_func(l)
        data.append([savant, auteur, annee, eloge])

    df = pd.DataFrame(data, columns=['Savant', 'Auteur', 'Annee', 'Eloge']) 
    df.to_csv(DF_PATH + 'dataframe_' + name + '.csv', index=False)
    

#Creating the dataframe for Fouchy eulogies    
save_as_df(get_info_fouchy, line_dec, 'Fouchy')

In [11]:
#Test to check if it worked
df_try = pd.read_csv(DF_PATH + 'dataframe_Fouchy.csv')
df_try.head(2)

Unnamed: 0,Savant,Auteur,Annee,Eloge
0,De Bragelongne,Fouchy,1744,"Christophe-Bernard de Bragelongne, Prêtre, Doy..."
1,De Torcy,Fouchy,1746,"Jean-Baptiste Colbert, Marquis de Torcy, Crois..."


# 2. Mairan

Parsing the eulogies for the secretary Mairan

In [26]:
with open(DATA_FOLDER + 'mairan_txt.txt', 'r') as f:
    lines = f.readlines()

In [27]:
# Showing what is loaded
lines[0:5]

 ' <savant> Petit\n',
 ' <auteur> Mairan \n',
 ' <annee> 1741\n',
 "\tFrançois Pourfour Du Petit naquit à Paris le 24 Juin 1664, de parents qui étaient dans le commerce, et qu’il perdit étant encore enfant. Les personnes qui furent chargées de son éducation trouvèrent en lui un obstacle presqu’invincible à ses premières études, un défaut de  mémoire qui se montrait également par la difficulté d’apprendre et par celle de retenir. Ce ne fut qu’à force de travail et par les soins de quelques-uns de ses Maîtres, dont il ne laissa pas de gagner l'affection, qu’il fit ses basses classes. Il éprouva les mêmes difficultés en Seconde et en Rhétorique ; sa mémoire toujours indocile ne le servait pas mieux pour les règles de Poésie et pour les préceptes d’Éloquence, qu’elle avait fait pour les mots latins et pour les leçons de Grammaire ; mais il s’obstinait de même à les étudier, comme par un pressentiment de ce qui devait les suivre. C’est de cette manière laborieuse et tardive que M. Petit vin

In [28]:
# Transforming a list of strings into one string
all_lines = ''

for l in lines :
    all_lines = all_lines + " " + l

In [29]:
#Split by ========== as it's an indicator of a new eulogy
line_dec_mairan = all_lines.split('==========')

In [30]:
print('Number of lines : ' + str(len(line_dec_mairan)))

Number of lines : 11


In [31]:
#First line
line_dec_mairan[0]

' '

In [32]:
#Removing first line that is a blank space
line_dec_mairan.pop(0)

' '

In [33]:
print('Number of lines : ' + str(len(line_dec_mairan)))

Number of lines : 10


In [34]:
def get_info_mairan(string):
    '''
    Method to obtain given an eulogy, the scientist it is about, the author, the year it was published, the eulogy
    itself
    Input :
        - string (str) : string containing all the information and eulogy
    Outputs :
        - savant (str) : scientist
        - auteur (str) : author of the eulogy
        - annee (str) : year it was published
        - eloge (str) : eulogy
    '''
    
    # flag DOTALL was added because of the \n in the text
    savant = re.findall('<savant>(.+?)<auteur>', string, flags = re.DOTALL)[0].replace('\n', '').strip()
    auteur = re.findall('<auteur>(.+?)<annee>', string, flags = re.DOTALL)[0].replace('\n', '').strip()
    annee = string.split('<annee>')[1][1:5]
    eloge = string.split('<annee> ' + str(annee))[1].strip()
    return savant,auteur, annee, eloge

In [35]:
# example

get_info_mairan(line_dec_mairan[0])

('Petit',
 'Mairan',
 '1741',
 "François Pourfour Du Petit naquit à Paris le 24 Juin 1664, de parents qui étaient dans le commerce, et qu’il perdit étant encore enfant. Les personnes qui furent chargées de son éducation trouvèrent en lui un obstacle presqu’invincible à ses premières études, un défaut de  mémoire qui se montrait également par la difficulté d’apprendre et par celle de retenir. Ce ne fut qu’à force de travail et par les soins de quelques-uns de ses Maîtres, dont il ne laissa pas de gagner l'affection, qu’il fit ses basses classes. Il éprouva les mêmes difficultés en Seconde et en Rhétorique ; sa mémoire toujours indocile ne le servait pas mieux pour les règles de Poésie et pour les préceptes d’Éloquence, qu’elle avait fait pour les mots latins et pour les leçons de Grammaire ; mais il s’obstinait de même à les étudier, comme par un pressentiment de ce qui devait les suivre. C’est de cette manière laborieuse et tardive que M. Petit vint à bout d’apprendre assez de Latin et

In [36]:
#Print to check it worked for all

for l in line_dec_mairan :
    savant, author, year, eulogy = get_info_mairan(l)
    print("=======")
    print("Savant  : " + savant)
    print("Auteur : " + author)
    print("Annee : " + year)
    print("Debut eloge : " + eulogy[0:30])

Savant  : Petit
Auteur : Mairan
Annee : 1741
Debut eloge : François Pourfour Du Petit naq
Savant  : De Polignac
Auteur : Mairan
Annee : 1742
Debut eloge : Melchior de Polignac, Cardinal
Savant  : Boulduc
Auteur : Mairan
Annee : 1742
Debut eloge : Gilles-François Boulduc, premi
Savant  : Halley
Auteur : Mairan
Annee : 1742
Debut eloge : Edmond Halley fils d’Edmond Ha
Savant  : De Bremond
Auteur : Mairan
Annee : 1743
Debut eloge : Ce que le sang peut communique
Savant  : De Molières
Auteur : Mairan
Annee : 1743
Debut eloge : Joseph Privat de Molières, Prê
Savant  : Hunauld
Auteur : Mairan
Annee : 1743
Debut eloge : François Joseph Hunauld naquit
Savant  : De Fleury
Auteur : Mairan
Annee : 1743
Debut eloge : André Hercule De Fleury ancien
Savant  : Bignon
Auteur : Mairan
Annee : 1743
Debut eloge : Jean-Paul Bignon, Abbé de Sain
Savant  : Lémery
Auteur : Mairan
Annee : 1743
Debut eloge : Nicolas Lémery, l’un des ancie


In [37]:
#Saving it
save_as_df(get_info_mairan, line_dec_mairan, 'Mairan')

In [38]:
#checking it worked correctly

df = pd.read_csv(DF_PATH + 'dataframe_Mairan.csv')
df.head(10)

Unnamed: 0,Savant,Auteur,Annee,Eloge
0,Petit,Mairan,1741,François Pourfour Du Petit naquit à Paris le 2...
1,De Polignac,Mairan,1742,"Melchior de Polignac, Cardinal Prêtre de l’Égl..."
2,Boulduc,Mairan,1742,"Gilles-François Boulduc, premier Apothicaire d..."
3,Halley,Mairan,1742,Edmond Halley fils d’Edmond Halley citoyen de ...
4,De Bremond,Mairan,1743,Ce que le sang peut communiquer de disposition...
5,De Molières,Mairan,1743,"Joseph Privat de Molières, Prêtre, Lecteur et ..."
6,Hunauld,Mairan,1743,François Joseph Hunauld naquit à Châteaubriant...
7,De Fleury,Mairan,1743,André Hercule De Fleury ancien Evêque de Fréju...
8,Bignon,Mairan,1743,"Jean-Paul Bignon, Abbé de Saint Quentin en l’I..."
9,Lémery,Mairan,1743,"Nicolas Lémery, l’un des anciens Membres de ce..."


# 3. Condorcet

To create the dataframe for Condorcet

## a. Condorcet 1

First file

In [39]:
#Loading data

with open(DATA_FOLDER + 'condorcet_1_txt.txt', 'r') as f:
    lines = f.readlines()

In [40]:
lines[0:4]

['\ufeff<savant> de la Chambre\n',
 '<auteur> Condorcet\n',
 '<annee> 1773\n',
 "<eloge> [Condorcet avait mis, en marge de cette première partie des Éloges, quelques indications des corrections ou des développements qu’il avait le projet d’y faire. Nous les avons précieusement conservées : elles donnent une idée de sa manière de travailler, et sa simplicité, sa candeur, son amour pour la vérité s’y montrent à chaque mot. (Note des premiers éditeurs.)] \\n Marin Cureau de la Chambre, médecin ordinaire du roi, naquit au Mans vers 1613. Le chancelier Séguier se l’attacha, moins pour son habileté dans la médecine, que pour l’étendue et la variété de Ses connaissances. La confiance de ce ministre fournissait à la Chambre le moyen d’être utile aux gens de lettres, et il en saisissait avidement toutes les occasions. Il était bien éloigné de dédaigner les Sciences après avoir fait fortune par elles : espèce d’ingratitude qui n’est malheureusement que trop commune. Le cardinal de Richelieu lui 

In [42]:
print('Number of lines : ' + str(len(lines)))

Number of lines : 157


In [43]:
#Merging all the lines
all_lines = ''


for l in lines :
    #Removing starting and ending spaces
    l = l.strip()
    if l.startswith('<savant>'):
        #if it is the start of a new eulogy thanks to <savant> add the indicator '======' to perform a split later on
        l = '======' + l
    all_lines = all_lines + " " + l

In [44]:
all_lines[0:100]

' \ufeff<savant> de la Chambre <auteur> Condorcet <annee> 1773 <eloge> [Condorcet avait mis, en marge de c'

In [45]:
lines_dec_cond1 = all_lines.split('======')

In [46]:
print("Number of lines obtained : " + str(len(lines_dec_cond1)))

Number of lines obtained : 39


In [47]:
count = all_lines.count('<annee>')

print("Number of eulogies in it " + str(count))

Number of eulogies in it 39


In [48]:
def get_info_condorcet(string):
    '''
    Get information from eulogies written by Condorcet
    Input :
        - string (str) : line containing information + eulogy
    Outputs :
        - savant (str) : Name of the scientist
        - auteur (str) : Name of the author
        - annee (str) : Year of publication
        - eloge (str) : eulogy itself
    '''
    savant = re.findall('<savant>(.+?)<auteur>', string, flags = re.DOTALL)[0].replace('\n', '').strip()
    auteur = re.findall('<auteur>(.+?)<annee>', string, flags = re.DOTALL)[0].replace('\n', '').strip()
    annee = string.split('<annee>')[1][0:5].strip()
    eloge = string.split('<eloge>')[1].strip()
    return savant,auteur, annee, eloge

In [49]:
#Checking everything works correctly

for l in lines_dec_cond1 :
    savant, auteur, annee, eloge = get_info_condorcet(l)
    print("=======")
    print("Savant  : " + savant)
    print("Auteur : " + auteur)
    print("Annee : " + annee)
    print("Debut eloge : " + eloge[0:30])

Savant  : de la Chambre
Auteur : Condorcet
Annee : 1773
Debut eloge : [Condorcet avait mis, en marge
Savant  : Frenicle
Auteur : Condorcet
Annee : 1773
Debut eloge : Nicolas Frenicle de Bessy, con
Savant  : Picard
Auteur : Condorcet
Annee : 1773
Debut eloge : [Voyez sur Picard l’Histoire c
Savant  : Mariotte
Auteur : Condorcet
Annee : 1773
Debut eloge : Edme Mariotte naquit à Dijon, 
Savant  : Duclos
Auteur : Condorcet
Annee : 1773
Debut eloge : Samuel Cotreau Duclos, médecin
Savant  : Blondel
Auteur : Condorcet
Annee : 1773
Debut eloge : François Blondel naquit à Ribe
Savant  : Huygens
Auteur : Condorcet
Annee : 1773
Debut eloge : Christian Huygens naquit à la 
Savant  : Charas
Auteur : Condorcet
Annee : 1773
Debut eloge : Moïse Charas naquit à Usez ver
Savant  : Roëmer
Auteur : Condorcet
Annee : 1773
Debut eloge : [Voyez le Recueil des œuvres d
Savant  : Rohaut
Auteur : Condorcet
Annee : 1773
Debut eloge : Au sortir du collège, où l’on 
Savant  : Bartholin
Auteur : Condorcet
Annee : 

In [50]:
# Saving it as dataframe

save_as_df(get_info_condorcet, lines_dec_cond1, 'Condorcet_1')

In [51]:
# Checking it worked

df_c1 = pd.read_csv(DF_PATH + 'dataframe_Condorcet_1.csv')
df_c1

Unnamed: 0,Savant,Auteur,Annee,Eloge
0,de la Chambre,Condorcet,1773,"[Condorcet avait mis, en marge de cette premiè..."
1,Frenicle,Condorcet,1773,"Nicolas Frenicle de Bessy, conseiller à la cou..."
2,Picard,Condorcet,1773,[Voyez sur Picard l’Histoire céleste. Il a sou...
3,Mariotte,Condorcet,1773,"Edme Mariotte naquit à Dijon, ou du moins il y..."
4,Duclos,Condorcet,1773,"Samuel Cotreau Duclos, médecin ordinaire du ro..."
5,Blondel,Condorcet,1773,"François Blondel naquit à Ribemont, en Picardi..."
6,Huygens,Condorcet,1773,"Christian Huygens naquit à la Haye, le 14 avri..."
7,Charas,Condorcet,1773,"Moïse Charas naquit à Usez vers 1618, d’une fa..."
8,Roëmer,Condorcet,1773,"[Voyez le Recueil des œuvres de Leibniz, par M..."
9,Rohaut,Condorcet,1773,"Au sortir du collège, où l’on n’enseignait enc..."


## b. Condorcet 2

For the second file

In [52]:
# Loading data

with open(DATA_FOLDER + 'condorcet_2_txt.txt', 'r') as f:
    lines = f.readlines()

In [54]:
lines[0:5]

["Éloges des Académiciens de l'académie royale des sciences, morts depuis l’An 1788.\n",
 '<savant> Euler\n',
 '<auteur> Condorcet\n',
 '<annee> 1783\n',
 "<eloge> Léonard Euler, directeur de la classe de mathématiques dans l’Académie de Petersbourg, et auparavant dans celle de Berlin ; de la société royale de Londres, des académies de Turin, de Lisbonne et de Bâle ; associé étranger de celle des sciences, naquit à Bâle le 15 avril 1707, de Paul Euler et de Marguerite Brucker. \\n\tSon père, devenu, en 1708, pasteur du village de Riechen près de Bâle, fut son premier instituteur, et eut bientôt le plaisir de voir ces espérances des talents et de la gloire d’un fils, si douces pour un cœur paternel, naître et se fortifier sous ses yeux et par ses soins. \\n\tIl avait étudié les mathématiques sous Jacques Bernoulli ; on sait que cet homme illustre joignait à un grand génie pour les sciences, une philosophie profonde, qui n’accompagne pas toujours ce génie, mais qui sert à lui donner plus

In [56]:
#Merging everything in one line to make it easier for processing
all_lines = ''

for l in lines :
    #Remove beginning and ending spaces
    l = l.strip()
    #if it is the beginning of a eulogy we add a tag '======' to split later on
    if l.startswith('<savant>'):
        l = '======' + l
    all_lines = all_lines + " " + l

In [57]:
all_lines[0:200]



In [58]:
#Splitting all the eulogies
lines_dec_c2 = all_lines.split('======')

In [59]:
print("Number of lines " + str(len(lines_dec_c2)))

Number of lines 28


In [60]:
lines_dec_c2[0]

" Éloges des Académiciens de l'académie royale des sciences, morts depuis l’An 1788. "

In [61]:
#Removing the first line as it is a title and not part of an eulogy

lines_dec_c2.pop(0)

" Éloges des Académiciens de l'académie royale des sciences, morts depuis l’An 1788. "

In [62]:
print("Number of lines in list " + str(len(lines_dec_c2)))

Number of lines in list 27


In [63]:
#Checking we have the correct number of eulogies
print("Number of eulogies in the file " + str(all_lines.count('<savant>')))

Number of eulogies in the file 27


In [64]:
#Printing to check it worked
for l in lines_dec_c2 :
    savant, auteur, annee, eloge = get_info_condorcet(l)
    print("=======")
    print("Savant  : " + savant)
    print("Auteur : " + auteur)
    print("Annee : " + annee)
    print("Debut eloge : " + eloge[0:30])

Savant  : Euler
Auteur : Condorcet
Annee : 1783
Debut eloge : Léonard Euler, directeur de la
Savant  : Bézout
Auteur : Condorcet
Annee : 1783
Debut eloge : Étienne Bézout, de l’Académie 
Savant  : d’Alembert
Auteur : Condorcet
Annee : 1783
Debut eloge : Jean le Rond D’Alembert, secré
Savant  : de Tressan
Auteur : Condorcet
Annee : 1783
Debut eloge : Louis Élisabeth de la Vergne, 
Savant  : Wargentin
Auteur : Condorcet
Annee : 1783
Debut eloge : Pierre Wargentin, chevalier de
Savant  : Macquer
Auteur : Condorcet
Annee : 1784
Debut eloge : Pierre-Joseph Macquer, docteur
Savant  : Bergman
Auteur : Condorcet
Annee : 1784
Debut eloge : Torbern Bergman, professeur de
Savant  : Morand
Auteur : Condorcet
Annee : 1784
Debut eloge : Jean-François Clément Morand, 
Savant  : Cassini
Auteur : Condorcet
Annee : 1784
Debut eloge : César-François Cassini de Thur
Savant  : Milly
Auteur : Condorcet
Annee : 1784
Debut eloge : Nicolas Christiern de Thy, com
Savant  : de Courtivron
Auteur : Condorcet
Annee

In [65]:
# Saving it

save_as_df(get_info_condorcet, lines_dec_c2, 'Condorcet_2')

In [67]:
# Checking it worked

dfc2 = pd.read_csv(DF_PATH + 'dataframe_Condorcet_2.csv')
dfc2.head(10)

Unnamed: 0,Savant,Auteur,Annee,Eloge
0,Euler,Condorcet,1783,"Léonard Euler, directeur de la classe de mathé..."
1,Bézout,Condorcet,1783,"Étienne Bézout, de l’Académie des sciences et ..."
2,d’Alembert,Condorcet,1783,"Jean le Rond D’Alembert, secrétaire perpétuel ..."
3,de Tressan,Condorcet,1783,"Louis Élisabeth de la Vergne, comte de Tressan..."
4,Wargentin,Condorcet,1783,"Pierre Wargentin, chevalier de l’Étoile polair..."
5,Macquer,Condorcet,1784,"Pierre-Joseph Macquer, docteur-régent de la fa..."
6,Bergman,Condorcet,1784,"Torbern Bergman, professeur de chimie à Upsal,..."
7,Morand,Condorcet,1784,"Jean-François Clément Morand, docteur régent d..."
8,Cassini,Condorcet,1784,"César-François Cassini de Thury, noble siennoi..."
9,Milly,Condorcet,1784,"Nicolas Christiern de Thy, comte de Milly, des..."


# 4. 19ème siècle 1e série

In [68]:
import os 

#Getting all the files present in a directory
entries = os.listdir(DATA_FOLDER + '19e/')
entries

['.DS_Store',
 'Corpus 19e-20e série B.3_pyt.txt',
 'Corpus 19e-20e série B.2_pyt.txt',
 'Corpus 19e-20e série B.4_pyt.txt',
 'Corpus 19e-20e série B.1_pyth.txt']

In [69]:
#Reading all the files and storing them in a list
lines = []
for i in range(1, len(entries)):
    with open(DATA_FOLDER + '19e/' + entries[i], 'rb') as f:
        lines.append(f.readlines())

In [72]:
print('Number of files :' + str(len(lines)))

Number of files :4


In [73]:
#First line
lines[3][0]

b'<savant> Pelletier\r\n'

In [74]:
#Merging all the lines and tagging the one that are the start of an eulogy

lines_dec = []
for l in lines :
    all_lines = ''
    for l_sec1 in l :
        #decoding them with mac-roman for special characters
        l_sec = l_sec1.decode("mac-roman")
        l_sec = l_sec.strip()
        if l_sec.startswith('<savant>'):
            l_sec = '======' + l_sec
        all_lines = all_lines + " " + l_sec
    lines_dec.append(all_lines)
        

In [77]:
#dictionnary for characters that were wrongly written in the eulogy
lookp_dict ={'‡': 'à', '˘' :'ù', 'Í' : 'ê',  '‚' : 'â', 'Ë' : 'è', 'í' : "'", 'È' :'é', 'Ó' :'î', 'Á' :'ç', 
             '˚' : 'û', 'Ù' : 'ô', 'c?' : 'ç'}

In [78]:
#correcting the wrong characters

lines_dec_corr = []
for l in lines_dec :
    for key in lookp_dict.keys():
        l = l.replace(key, lookp_dict[key])
    lines_dec_corr.append(l)

In [82]:
lines_dec_corr[0][0:100]



In [83]:
len(lines_dec_corr)

4

In [84]:
#Splitting the eulogies and checking we have the correct numbers
l_by_eul = []
for l in lines_dec_corr :
    eul = l.split('======')
    print(eul[1][0:30])
    eul.pop(0)
    print('Number of lines obtained : ' + str(len(eul)))
    l_by_eul.append(eul)

<savant> Lalande <auteur> Dela
Number of lines obtained : 7
<savant> Priestley <auteur> Cu
Number of lines obtained : 6
<savant> Bougainville <auteur>
Number of lines obtained : 6
<savant> Pelletier <auteur> La
Number of lines obtained : 8


In [85]:
#Checking everything is correct
for eul_pap in l_by_eul :
    print(len(eul_pap))
    for eul in eul_pap :
        print(eul[0:30])
    print(' ')

7
<savant> Lalande <auteur> Dela
<savant>Broussonnet <auteur> C
<savant>Berthoud <auteur>Delam
<savant>Lassus <auteur>Cuvier 
<savant>Ventenat <auteur> Cuvi
<savant>Montgolfier <auteur> D
<savant> Fourcroy <auteur>Cuvi
 
6
<savant> Priestley <auteur> Cu
<savant> Dolomieu <auteur> Lac
<savant> Martin Cels <auteur> 
<savant> Adanson <auteur> Cuvi
<savant> Brisson <auteur> Dela
<savant> Coulomb <auteur> Dela
 
6
<savant> Bougainville <auteur>
<savant> Maskelyne <auteur> De
<savant> Desessarts <auteur> C
<savant> Cavendish <auteur> Cu
<savant> Malus <auteur> Delamb
<savant> Lagrange <auteur> Del
 
8
<savant> Pelletier <auteur> La
<savant> Bayen <auteur> Lassus
<savant> Daubenton <auteur>  C
<savant> Lemonnier <auteur> Cu
<savant> Héritier <auteur> Cuv
<savant> Gilbert <auteur> Cuvi
<savant> Darcet <auteur> Cuvie
<savant> Méchain <auteur> Dela
 


In [86]:
#Checking everything works when getting the information
for eul_pap in l_by_eul :
    for l in eul_pap :
        savant, auteur, annee, eloge = get_info_condorcet(l)
        print("=======")
        print("Savant  : " + savant)
        print("Auteur : " + auteur)
        print("Annee : " + annee)
        print("Debut eloge : " + eloge[0:30])

Savant  : Lalande
Auteur : Delambre
Annee : 1808
Debut eloge : \n 	Au seul nom de M. de Lalan
Savant  : Broussonnet
Auteur : Cuvier
Annee : 1808
Debut eloge : \n 	Pierre-Marie-Auguste Brous
Savant  : Berthoud
Auteur : Delambre
Annee : 1809
Debut eloge : \n 	Ferdinand Berthoud, horlog
Savant  : Lassus
Auteur : Cuvier
Annee : 1809
Debut eloge : \n 	Les éloges publics de l'In
Savant  : Ventenat
Auteur : Cuvier
Annee : 1809
Debut eloge : \n 	…tienne-Pierre Ventenat, m
Savant  : Montgolfier
Auteur : Delambre
Annee : 1811
Debut eloge : \n 	Joseph-Michel Montgolfier,
Savant  : Fourcroy
Auteur : Cuvier
Annee : 1811
Debut eloge : \n 	L'histoire de cette longue
Savant  : Priestley
Auteur : Cuvier
Annee : 1805
Debut eloge : Messieurs, \n	J'ai à vous entr
Savant  : Dolomieu
Auteur : Lacepède
Annee : 1802
Debut eloge : Peu de temps s'est écoulé depu
Savant  : Martin Cels
Auteur : Cuvier
Annee : 1806
Debut eloge : Jacques-Martin Cels, cultivate
Savant  : Adanson
Auteur : Cuvier
Annee : 1807
Debut el

In [87]:
#saving as df
for i, eul_pap in enumerate(l_by_eul) :
    
    save_as_df(get_info_condorcet, eul_pap, '19e_siecle_1ere_' + str(i))

# 5. 19eme siècle 2ème partie

In [96]:
#List of the files 

entries = os.listdir(DATA_FOLDER + '19e2/')
entries

['.DS_Store',
 'Corpus_19e-20e,_2e_série_A_1302_fin_pyth.txt',
 'Corpus_19e-20e,_2e_série_C_1173_pyth.txt',
 'Corpus_19e-20e,_2e_série_C_849_pyth.txt',
 'Corpus_19e-20e,_2e_série_B_1-682_pyth.txt',
 'Corpus_19e-20e,_2e_série_C_1173-1538_pyth.txt',
 'Corpus_19e-20e,_2e_série_C_456_pyth.txt',
 'Corpus_19e-20e,_2e_série_A_550_pyt.txt',
 'Corpus_19e-20e,_2e_série_B_fin_pyth.txt',
 'Corpus_19e-20e,_2e_série_C_1540-1930_pyth.txt',
 'Corpus_19e-20e,_2e_série_B_683-1281_pyth.txt',
 'Corpus_19e-20e,_2e_série_C_213_pyth.txt',
 'Corpus_19e-20e,_2e_série_C-1931-fin_pyth.txt',
 'Corpus_19e-20e,_2e_série_A_551-1301_pyth.txt']

In [97]:
#Reading all the files
lines = []
for i in range(1, len(entries)):
    with open(DATA_FOLDER + '19e2/' + entries[i], 'rb') as f:
        lines.append(f.readlines())

In [98]:
l[0:200]



In [99]:
#Tagging and decoding the lines

lines_dec = []
for l in lines :
    all_lines = ''
    for l_sec1 in l :
        l_sec = l_sec1.decode("mac-roman")
        l_sec = l_sec.strip()
        if l_sec.startswith('<savant>'):
            l_sec = '==========' + l_sec
        all_lines = all_lines + " " + l_sec
    lines_dec.append(all_lines)

In [100]:
#Replacing wrong characters
lines_dec_corr = []
for l in lines_dec :
    for key in lookp_dict.keys():
        l = l.replace(key, lookp_dict[key])
    lines_dec_corr.append(l)

In [103]:
print('Number of files : ' + str(len(lines_dec_corr)))

Number of files : 13


In [104]:
l_by_eul = []
for l in lines_dec_corr :
    eul = l.split('==========')
    print(eul[0])
    print(eul[1][0:40])
    #eul = eul[1:-1]
    eul.pop(0)
    print('Number of lines obtained : ' + str(len(eul)))
    l_by_eul.append(eul)

  
<savant> D'Aubert-Aubert Du-Petit-Thouar
Number of lines obtained : 6
  
<savant>Grandidier <auteur>Alfred Lacroi
Number of lines obtained : 6
 
<savant> Saint-Vincent <auteur> Alfred L
Number of lines obtained : 12
 
<savant>Beautemps-Beaupré <auteur>De Bea
Number of lines obtained : 11
 
<savant>Biot <auteur>Picard <annee>1927 
Number of lines obtained : 4
 
<savant> Claude Bernard 	 <auteur> Van T
Number of lines obtained : 6
  
<savant>Banks <auteur>Cuvier <annee>1821
Number of lines obtained : 18
  
<savant>De La Gournerie <auteur> Bertran
Number of lines obtained : 21
  
<savant>Boussinesq <auteur>Picard <annee
Number of lines obtained : 5
  
<savant> Jean Plana <auteur> De Beaumont
Number of lines obtained : 17
  
<savant>Hermite <auteur>Darboux <annee> 
Number of lines obtained : 5
 
<savant>Onnes <auteur>Picard <annee> 193
Number of lines obtained : 5
 
<savant> Volta <auteur> Arago <annee> 18
Number of lines obtained : 13


In [105]:
for eul_pap in l_by_eul :
    print(len(eul_pap))
    for eul in eul_pap :
        print(eul[0:50])
    print(' ')

6
<savant> D'Aubert-Aubert Du-Petit-Thouars <auteur>
<savant>Lazare-Nicolas-Marguerite Carnot <auteur> 
<savant> Benjamen Delessert <auteur> Flourens <ann
<savant> Etienne Geoffroy Saint-Hilaire <auteur> F
<savant> Bailly <auteur>Arago <annee>1844 <eloge> 
<savant>Gaspard Monge <auteur>Arago <annee>1846 <e
 
6
<savant>Grandidier <auteur>Alfred Lacroix <annee>1
<savant> Bonnier <auteur> Molliard <annee> 1923 <e
<savant> Fizeau <auteur> Picard <annee> 1923 <elog
<savant> Edwards <auteur>Alfred Lacroix <annee> 19
<savant>Tannery <auteur>Picard <annee> 1925 <eloge
<savant> Boussingault <auteur>Alfred Lacroix <anne
 
12
<savant> Saint-Vincent <auteur> Alfred Lacroix <an
<savant> Darboux <auteur> Picard <annee> 1917 <elo
<savant> Dolomieu <auteur> Alfred Lacroix <annee> 
<savant>Kelvin <auteur> Picard <annee> 1919 <eloge
<savant> Laparrent <auteur> Alfred Lacroix <annee>
<savant>Schloesing <auteur> Lindet <annee> 1920 <e
<savant> Duhem <auteur> Picard <annee> 1921 <eloge
<savant> Guyou <aute

In [107]:
def get_info_19e(string):
    '''
    Get information from eulogies written in 19e
    Input :
        - string (str) : line containing information + eulogy
    Outputs :
        - savant (str) : Name of the scientist
        - auteur (str) : Name of the author
        - annee (str) : Year of publication
        - eloge (str) : eulogy itself
    '''
    savant = re.findall('<savant>(.+?)<', string, flags = re.DOTALL)[0].replace('\\n', '').strip()
    auteur = re.findall('<auteur>(.+?)<', string, flags = re.DOTALL)[0].replace('\\n', '').strip()
    annee = string.split('<annee>')[1][0:5].strip()
    eloge = string.split('<eloge>')[1].strip()
    return savant,auteur, annee, eloge

In [108]:
#Printing to check it worked
for eul_pap in l_by_eul :
    for l in eul_pap :
        savant, auteur, annee, eloge = get_info_19e(l)
        print("=======")
        print("Savant  : " + savant)
        print("Auteur : " + auteur)
        print("Annee : " + str(annee))
        print("Debut eloge : " + eloge[0:30])

Savant  : D'Aubert-Aubert Du-Petit-Thouars
Auteur : Flourens
Annee : 1845
Debut eloge : \n	L'homme célèbre dont j'écri
Savant  : Lazare-Nicolas-Marguerite Carnot
Auteur : Arago
Annee : 1837
Debut eloge : \n	Enfance de Carnot, son éduc
Savant  : Benjamen Delessert
Auteur : Flourens
Annee : 1850
Debut eloge : \n	Dès que l'Académie put se d
Savant  : Etienne Geoffroy Saint-Hilaire
Auteur : Flourens
Annee : 1852
Debut eloge : \n	Cette Académie a compté, da
Savant  : Bailly
Auteur : Arago
Annee : 1844
Debut eloge : \n	Messieurs [Lue dans la séan
Savant  : Gaspard Monge
Auteur : Arago
Annee : 1846
Debut eloge : \n	Le maréchal de Saxe raconta
Savant  : Grandidier
Auteur : Alfred Lacroix
Annee : 1922
Debut eloge : \n Messieurs, 	 \n Choisir dan
Savant  : Bonnier
Auteur : Molliard
Annee : 1923
Debut eloge : \n Bonnier (Gaston- Eugène-Mar
Savant  : Fizeau
Auteur : Picard
Annee : 1923
Debut eloge : \n Messieurs, 	 \n Des travaux
Savant  : Edwards
Auteur : Alfred Lacroix
Annee : 1924
Debut eloge :

In [109]:
#save as dataframe
for i, eul_pap in enumerate(l_by_eul) :
    
    save_as_df(get_info_19e, eul_pap, '19e_siecle_2eme_' + str(i))

# 6. 19eme siècle arago

In [110]:
#Reading the file
with open(DATA_FOLDER + 'corpus19-20_arago_txt.txt', 'rb') as f:
    lines = f.readlines()

In [111]:
# Decode every line and store every line in a new list

line_dec = []

for l in lines :
    line_dec.append(l.decode("mac_roman"))

In [112]:
line_dec[0][0:200]

'<savant> Fresnel \\n<auteur> Arago  \\n<annee> 1830 \\n<eloge> Messieurs, " il est des hommes ‡ qui líon succËde et que personne ne remplace." : Ces paroles díun des plus honorables Ècrivains de notre te'

In [113]:
len(line_dec)

1

In [114]:
#Replacing wrongly written characters
lines_dec_corr = []
for l in line_dec :
    for key in lookp_dict.keys():
        l = l.replace(key, lookp_dict[key])
    lines_dec_corr.append(l)

In [115]:
lines_dec_corr[0][0:200]

'<savant> Fresnel \\n<auteur> Arago  \\n<annee> 1830 \\n<eloge> Messieurs, " il est des hommes à qui l\'on succède et que personne ne remplace." : Ces paroles d\'un des plus honorables écrivains de notre te'

In [116]:
#splitting the eulogies
lines_dec_sp = lines_dec_corr[0].split('<savant>')

In [117]:
print('Number of eulogies : ' + str(len(lines_dec_sp)))

Number of eulogies : 6


In [118]:
lines_dec_sp[0]

''

In [119]:
#Removing the first line as it is a blak space
lines_dec_sp.pop(0)
print('Number of eulogies : ' + str(len(lines_dec_sp)))
lines_dc_tag = []
for l in lines_dec_sp :
    #Tagging eulogies
    lines_dc_tag.append('<savant>' + l)


Number of eulogies : 5


In [120]:
lines_dc_tag[0][0:200]

'<savant> Fresnel \\n<auteur> Arago  \\n<annee> 1830 \\n<eloge> Messieurs, " il est des hommes à qui l\'on succède et que personne ne remplace." : Ces paroles d\'un des plus honorables écrivains de notre te'

In [121]:
#Checking everything worked
for l in lines_dc_tag :
    savant, auteur, annee, eloge = get_info_19e(l)
    print("=======")
    print("Savant  : " + savant)
    print("Auteur : " + auteur)
    print("Annee : " + str(annee))
    print("Debut eloge : " + eloge[0:30])

Savant  : Fresnel
Auteur : Arago
Annee : 1830
Debut eloge : Messieurs, " il est des hommes
Savant  : Ampère
Auteur : Arago
Annee : 1839
Debut eloge : Messieurs, je dois aujourd'hui
Savant  : Poisson
Auteur : Arago
Annee : 1850
Debut eloge : Naissance de Poisson. - Sa jeu
Savant  : Gay-Lussac
Auteur : Arago
Annee : 1852
Debut eloge : La biographie dont je vais don
Savant  : Malus
Auteur : Arago
Annee : 1855
Debut eloge : Naissance de Malus. son éducat


In [122]:
#save as dataframe
save_as_df(get_info_19e, lines_dc_tag, 'Arago')

# 7. Merging all dataframes

In [123]:
#Loading all eulogies
PATH_DF = './../Data/Dataframes'
entries = os.listdir(PATH_DF)
entries

['dataframe_19e_siecle_1ere_2.csv',
 'dataframe_19e_siecle_1ere_3.csv',
 'dataframe_19e_siecle_1ere_1.csv',
 'dataframe_19e_siecle_1ere_0.csv',
 'dataframe_19e_siecle_2eme_0.csv',
 'dataframe_Condorcet_1.csv',
 'dataframe_19e_siecle_2eme_1.csv',
 'dataframe_19e_siecle_2eme_3.csv',
 'dataframe_Condorcet_2.csv',
 'dataframe_Mairan.csv',
 'dataframe_19e_siecle_2eme_2.csv',
 'dataframe_19e_siecle_2eme_6.csv',
 'dataframe_19e_siecle_2eme_7.csv',
 'eulogies.csv',
 'dataframe_19e_siecle_2eme_5.csv',
 'dataframe_19e_siecle_2eme_4.csv',
 'dataframe_19e_siecle_2eme_9.csv',
 'dataframe_19e_siecle_2eme_8.csv',
 '.ipynb_checkpoints',
 'dataframe_Fouchy.csv',
 'sec_perp.csv',
 'dataframe_19e_siecle_2eme_11.csv',
 'dataframe_19e_siecle_2eme_10.csv',
 'dataframe_19e_siecle_2eme_12.csv',
 'dataframe_Arago.csv']

In [124]:
entries.pop(entries.index('sec_perp.csv'))
entries.pop(entries.index('.ipynb_checkpoints'))
entries.pop(entries.index('eulogies.csv'))

'eulogies.csv'

In [125]:
entries

['dataframe_19e_siecle_1ere_2.csv',
 'dataframe_19e_siecle_1ere_3.csv',
 'dataframe_19e_siecle_1ere_1.csv',
 'dataframe_19e_siecle_1ere_0.csv',
 'dataframe_19e_siecle_2eme_0.csv',
 'dataframe_Condorcet_1.csv',
 'dataframe_19e_siecle_2eme_1.csv',
 'dataframe_19e_siecle_2eme_3.csv',
 'dataframe_Condorcet_2.csv',
 'dataframe_Mairan.csv',
 'dataframe_19e_siecle_2eme_2.csv',
 'dataframe_19e_siecle_2eme_6.csv',
 'dataframe_19e_siecle_2eme_7.csv',
 'dataframe_19e_siecle_2eme_5.csv',
 'dataframe_19e_siecle_2eme_4.csv',
 'dataframe_19e_siecle_2eme_9.csv',
 'dataframe_19e_siecle_2eme_8.csv',
 'dataframe_Fouchy.csv',
 'dataframe_19e_siecle_2eme_11.csv',
 'dataframe_19e_siecle_2eme_10.csv',
 'dataframe_19e_siecle_2eme_12.csv',
 'dataframe_Arago.csv']

In [126]:
ls = []
for path in entries:
    ls.append(pd.read_csv(PATH_DF + '/' + path))

In [127]:
eulogies = pd.concat(ls, ignore_index = True)

In [128]:
eulogies.head()

Unnamed: 0,Savant,Auteur,Annee,Eloge
0,Bougainville,Delambre,1813.0,"Louis-Antoine de Bougainville, sénateur, comte..."
1,Maskelyne,Delambre,1813.0,"Névil Maskelyne, docteur en théologie, membre ..."
2,Desessarts,Cuvier,1812.0,"Jean-Charles Desessarts, médecin, membre de l'..."
3,Cavendish,Cuvier,1812.0,Parmi les hommes que nous avons coutume de cél...
4,Malus,Delambre,1812.0,"Sur la vie et les ouvrages de m-, et de m. Le ..."


In [129]:
eulogies.tail()

Unnamed: 0,Savant,Auteur,Annee,Eloge
252,Fresnel,Arago,1830.0,"Messieurs, "" il est des hommes à qui l'on succ..."
253,Ampère,Arago,1839.0,"Messieurs, je dois aujourd'hui, conformément à..."
254,Poisson,Arago,1850.0,Naissance de Poisson. - Sa jeunesse.- son admi...
255,Gay-Lussac,Arago,1852.0,La biographie dont je vais donner lecture est ...
256,Malus,Arago,1855.0,Naissance de Malus. son éducation littéraire -...


In [130]:
print("Number of eulogies in dataframe : " + str(eulogies.shape[0]))

Number of eulogies in dataframe : 257


In [131]:
# Save it

eulogies.to_csv(DF_PATH + 'eulogies.csv', index = False)

In [132]:
# Check it worked

df_test = pd.read_csv(DF_PATH + 'eulogies.csv')
df_test.head(5)

Unnamed: 0,Savant,Auteur,Annee,Eloge
0,Bougainville,Delambre,1813.0,"Louis-Antoine de Bougainville, sénateur, comte..."
1,Maskelyne,Delambre,1813.0,"Névil Maskelyne, docteur en théologie, membre ..."
2,Desessarts,Cuvier,1812.0,"Jean-Charles Desessarts, médecin, membre de l'..."
3,Cavendish,Cuvier,1812.0,Parmi les hommes que nous avons coutume de cél...
4,Malus,Delambre,1812.0,"Sur la vie et les ouvrages de m-, et de m. Le ..."


In [133]:
df_test.tail(5)

Unnamed: 0,Savant,Auteur,Annee,Eloge
252,Fresnel,Arago,1830.0,"Messieurs, "" il est des hommes à qui l'on succ..."
253,Ampère,Arago,1839.0,"Messieurs, je dois aujourd'hui, conformément à..."
254,Poisson,Arago,1850.0,Naissance de Poisson. - Sa jeunesse.- son admi...
255,Gay-Lussac,Arago,1852.0,La biographie dont je vais donner lecture est ...
256,Malus,Arago,1855.0,Naissance de Malus. son éducation littéraire -...
