## L'objectif de ce notebook d'essai est de créer la liste des articles de UN numéro à partir du sommaire trouvable sur BIUS. 

### 1 : Extraire de chaque page de sommaire d'un numéro sur BIUS la page et le titre des articles

In [1]:
import requests
import csv
import pandas as pd

#### 1.1. Extraire le texte HTML de la page et le stocker dans un document

In [2]:
r = requests.get("https://www.biusante.parisdescartes.fr/histoire/medica/resultats/index.php?do=chapitre&cote=131132x1898x01")
#print(r.text)

#création d'un document avec le lien allant vers 
with open ("Essai_HTML.html","w") as Essai_HTML:
    Essai_HTML.write(r.text)

#### 1.2. Utiliser BeautifulSoup pour analyser l'HTML

In [3]:
from bs4 import BeautifulSoup
from lxml import html

In [4]:
numero_AHMC_soup = BeautifulSoup (open("Essai_HTML.html"), features="lxml")

##### 1.2.1. J'ai repéré que les références de chaque article se trouvent à l'intérieur de balises : div class="tableau1".  Je les extrait donc dans une var 'div_ens_tag'

In [5]:
div_ens_tag = numero_AHMC_soup.find_all("div", {"class":"tableau1"})

#print(div_ens_tag)

#### 1.2.2. Au sein de ces balises div, j'extrait le texte qui se trouve àl'intérieur des balises (càd page titre article nom auteur)

In [6]:
liste_page_titre = []

for balise in div_ens_tag:
    liste_page_titre.append(balise.text)
    
#print(liste_page_titre)
#print(len(liste_page_titre)) => Il y a 82 entrées au total

### 2. Nettoyer les entrées pour ne conserver que les articles

In [7]:
import regex as re

#### 2.1. Liste ne conservant que la page et le contenu de l'entrée
###### NB : je fais exprès de dire "entrée" et non "article" car il y a d'autres contenus que des articles

In [8]:
Liste_entrees = []
for entree in liste_page_titre :
    RE_entree = re.findall(r"\t(\d{1,3})(.*)",entree) 
        #NB : RE_article a pour classe "regex_match"
    #print(str(RE_article))
    Liste_entrees.append(RE_entree)
#print(Liste_entrees)

#### 2.2. Pour les pages d'un nouvel article qui débute, ne conserver que le nom du nouveau

In [9]:
Liste_entrees_no_doublesentrees= []

#le _t_ = "type"

for entree_t_list in Liste_entrees :
    for entree_t_tupple in entree_t_list :
        tupple_to_list = list(entree_t_tupple)
        
        if re.search(r"(.*\/(.*))",tupple_to_list[1],0, re.MULTILINE):
            tupple_to_list[1] = re.sub(r"(.*\/(.*))","\\2",tupple_to_list[1],0, re.MULTILINE)
            tupple_to_list[1] = re.sub(r"^ ","",tupple_to_list[1])
        Liste_entrees_no_doublesentrees.append(tupple_to_list)

#print(Liste_entrees_no_doublesentrees)

#### Ici je souhaite retirer les articles relatifs aux Bulletins officiels, Revues des journaux, Livres reçus et la table analytique des matières de chaque numéro.

In [24]:
Liste_articles = Liste_entrees_no_doublesentrees

for entree in Liste_entrees_no_doublesentrees :
    if re.search(r"(.*)?(Bulletin officiel)(.*)?",entree[1]):
        Liste_articles.remove(entree)
    elif re.search(r"(.*)?((J|j)ournaux)(.*)?",entree[1]):
        Liste_articles.remove(entree)
    elif re.search(r"(.*)?(Livres reçus)(.*)?",entree[1]):
        Liste_articles.remove(entree)
    elif re.search(r"(.*)?(Bibliographie)(.*)?",entree[1]):
        Liste_articles.remove(entree)
    elif re.search(r"(.*)?(Table analytique)(.*)?",entree[1]):
        Liste_articles.remove(entree)
    elif re.search(r"(.*)?(N(e|é)crologie)(.*)?",entree[1]):
        Liste_articles.remove(entree)

#print(Liste_articles)

### 3. Création d'un dataframe

In [145]:
df = pd.DataFrame(Liste_articles)

In [146]:
df.columns = ['article_page', 'article_titre']

In [147]:
#créer une nouvelle colonne avec le nom des auteurs (et ce qui suit)

df['article_auteur'] = df["article_titre"].str.split(r"((P|p)ar ((.+)?le)?) Dr (.*)").str[5]

#retirer nom auteurs (et ce qui suit) de article_titre
df['article_titre'] = df['article_titre'].str.replace(r"(.*)(Par (.*)?(le)? Dr (.*))", r"\1") #FONCTIONNE
#df['article_titre'] = df['article_titre'].str.replace(r"(.*)(Par le Dr .*)",r"\1")
df

Unnamed: 0,article_page,article_titre,article_auteur
0,9,Contribution à la géographie médicale. Notes ...,Clarac. Première partie
1,43,Contribution à la géographie médicale. Notes ...,Clarac. Première partie. Deuxième partie. La f...
2,114,Notes sur la mortalité des troupes d'infanteri...,Fontaine(1)
3,129,Sur le mécanisme de l'immunisation contre les ...,Calmette
4,135,Notes succinctes sur l'état sanitaire de nos ...,
...,...,...,...
62,547,Fonctionnement aux colonies des ambulances cr...,
63,550,Fonctionnement aux colonies des ambulances cr...,
64,555,Fonctionnement aux colonies des ambulances cr...,
65,562,Sur l'extension de la peste à bubons. Par Robe...,


In [148]:
print(df.iloc[55,1])

 Morbidité et mortalité à Madagascar pendant l'année 1897. Statistique médicale. Extrait du rapport. 


In [149]:
Liste_article_section = ["Contribution à la géographie médicale","Clinique d'Outre-Mer","Variétés"]

for section in Liste_article_section :
    for titre in df['article_titre']:
        if re.match(section,str(titre)):
          df['article_section'] = section
df

Unnamed: 0,article_page,article_titre,article_auteur,article_section
0,9,Contribution à la géographie médicale. Notes ...,Clarac. Première partie,Variétés
1,43,Contribution à la géographie médicale. Notes ...,Clarac. Première partie. Deuxième partie. La f...,Variétés
2,114,Notes sur la mortalité des troupes d'infanteri...,Fontaine(1),Variétés
3,129,Sur le mécanisme de l'immunisation contre les ...,Calmette,Variétés
4,135,Notes succinctes sur l'état sanitaire de nos ...,,Variétés
...,...,...,...,...
62,547,Fonctionnement aux colonies des ambulances cr...,,Variétés
63,550,Fonctionnement aux colonies des ambulances cr...,,Variétés
64,555,Fonctionnement aux colonies des ambulances cr...,,Variétés
65,562,Sur l'extension de la peste à bubons. Par Robe...,,Variétés


#### 3.__. exportation du df en csv

In [None]:
df2_essai.to_csv('FileName.csv', index = False)