In [1]:
import unicodedata

from bs4 import BeautifulSoup
import sqlite3
import requests
import re
import json
import pandas as pd

class scrapper:
    @staticmethod
    def get_arks(year):
        url_base = "https://gallica.bnf.fr/ark:/12148/cb34363188x/date"+str(year)+"0101"
        req = requests.get(url_base, headers={'User-Agent': 'Mozilla/5.0'})
        p = req.content
        L = re.findall(r"https://gallica.bnf.fr/ark:/(\d*/(bpt\w*))?",str(p))
        S = set()
        for i in L:
            if(i[1] != ""):
                S.add(i[1])
        return S
    @staticmethod
    def get_pagination(ark):
        """fonction qui renvoie le nombre de pages d'un documents"""
        #print(cpt,"--> https://gallica.bnf.fr/"+i+"/f7/highres")
        req = requests.get("https://gallica.bnf.fr/services/Pagination?ark=" + ark)
        p = req.content
        pages = re.search(r"<nbVueImages>(\d*)</nbVueImages>", str(p))
        return pages.groups()[0]
    @staticmethod
    def get_page(ark, page, number = 1):
        
        req = requests.get(f"https://gallica.bnf.fr/ark:/12148/{ark}/f{page}n{number}.texteBrut")
        return req.content
    @staticmethod
    def get_document(ark, mode = "texteBrut"):
        req = requests.get("https://gallica.bnf.fr/ark:/12148/"+ark+"."+ mode)
        return req.content
    

In [69]:
class Cleaner:
    def __init__(self, directory):
        self.directory = directory
        pass
    def extract(self, file):
        soup = BeautifulSoup(file , "html.parser")
        df = pd.DataFrame(columns=["page", "arrêt", "date", "juridiction"])
        Decision, notes, page, new_page, new_decision, count = False, False, 0, True, False,1
        for tag in soup.body :
            if count == 15:
                count = 0
                Decision = False
            new_decision = False
            string = tag.get_text()
            if tag.name == "hr":
                page += 1
                notes = False
                new_page  = True
            if tag.name == "p" and string is not None and not new_page:
                m1 = re.match(r"(^.*?(La Cour,|LA COUR)(?! DE)(.+)$|^JUGEMENT\.?$|^A\s?R\s?R\s?(Ê|E)\s?T\.\s?$)", string)
                m2 = re.match(r"(.*?)D(u|û|ù)(.+?)(—|–|-|–|–)(.+)", string ) 

                if not Decision and m1:
                    Decision = True
                    text = ""
                    count = 1
                    if m1.groups()[1] != None:
                        text = str(m1.groups()[3])
                    First_page = page
                    new_decision = True
                if Decision and m2:
                    if count < 15:
                        if(new_decision):
                            text =m2.groups()[0]
                        else:
                            text += m2.groups()[0]
                        date = m2.groups()[2]
                        juridiction = m2.groups()[4]
                        df = df.append({'page' : First_page, 'arrêt' : text , "date": date, "juridiction" : juridiction},ignore_index=True)
                    Decision = False
                    text = ''
                elif not notes and Decision and not new_decision:
                    if not re.match(r"^\(\d*\).+$", string):
                        count +=1
                        text+= string + "\n"
                    else:
                        notes = True
                else:
                    pass
            else :
                new_page = False
        return df
    def save(self, df, ark):
        df.to_csv(f"{self.directory}/{ark}.csv", encoding="utf-8")
        pass
    def postProcess(self, df):
        # fix mix date-juridiction
        Rows_contains_ = df['date'].str.contains(r"(—|–|-)")
        for i, row in df[Rows_contains_].iterrows():
            m = re.search(r"(.+?)(—|–|-|—)(.+)(—|–|-|—)?.*", row["date"] )
            if m:
                df.at[i, "date"] = m.groups()[0]
                df.at[i, "juridiction"] = m.groups()[2]
        #if still not fixed --> drop them
        Rows_contains_ = df['date'].str.contains(r"(—|–|-)")
        df = df[Rows_contains_ == False]
        # drop date too long
        leng = df["date"].str.len()
        df = df[leng < 25] # drop too long date
        # drop date with no number
        number = df["date"].str.contains("^\D*$")
        df = df[number== False] # drop too long date
        length_decision = df.arrêt.str.len()
        # drop decision too short
        df = df[length_decision > 100]
        # drop juridiction too long
        for i , row in df.iterrows():
            m = re.search(r"(.+?)(—|–|-|—|,|;).*", row["juridiction"] )
            if m:
                df.at[i, "juridiction"] = m.groups()[0]
        
        # process the juridiction
        
        return df              
        
                
  

In [30]:
years = scrapper.get_arks(1810)
years

{'bpt6k55460198', 'bpt6k5548364r'}

In [62]:
test = scrapper.get_page("bpt6k5546024k", 1, 50 )

In [56]:
c = Cleaner("test")
file = scrapper.get_document("bpt6k5548364r")


In [70]:
c = Cleaner("test")
df_test = c.extract(test)
df_test

Unnamed: 0,page,arrêt,date,juridiction
0,10,"Nonesèment, l'autre s'appliquant individuellem...",19 mars 1873.,Ch. iv.' - MM. Devienne/ 1er près.; Larombière...
1,11,"LA COUR; — Sur l'unique moyen du pourvoi, tiré...",29 juill. 1873.,"Ch. req.—MM. de Ray. nal, prés.; Connelly, ra..."
2,12,"NoneSi l'architecte, l'entrepreneur et tous ce...",26 nov. 1873.,"Ch. rcq. — MM. de Raynal, prés.; Puissan, rap..."
3,12,NoneSur le troisième moyen : — Attendu qu'il n...,23 juill. 1873.,"Ch. civ. — MM. Devienne, 1er prés.; Rieff, ra..."
4,13,None13 \nqu'un terrain inculte était la propri...,30 juill. 1873.,"Ch. civ. — MM. Devienne, 1er prés.; Greffier,..."
5,14,Nonetorisation de les conduire dans la galerie...,10 fév. 1873.,"Ch. civ. — MM. Devienne, 1er prés.; Merville,..."
6,16,"Nonemai 1870, arrêt confirmatif de la Cour de ...","ranton, t. 16, n. 342 et t. 49, n. 360 bis ; F...",P. chr.) ; 11 mars 1863 (S.4864.4.357.—P.4864....
7,16,"LA COUR ; — Sur le premier moyen, tiré de l'ir...",4 août 1873.,"Ch. civ.—MM. Devienne, 1er prés.; Greffier, ra..."
8,20,"LA COUR; —Attendu, en droit, que l'art. 917, C...",10 mars 1873.,"Ch. civ.—.MM. Laborie, prés.; Pont, rapp.; Bla..."
9,24,"Nonetaine Mariano Hormaza, le 19 avril, à cinq...",24 nov. 1873.,"Ch. req.—MM. de Raynal,prés.; d'Oms, rapp.; Ba..."


In [66]:
df_test = c.postProcess(df_test)

In [67]:
df_test[:50]

Unnamed: 0,page,arrêt,date,juridiction
0,10,"DE CASSATION. sèment, l'autre s'appliquant ind...",19 mars 1873.,Ch. iv.'
1,11,"LA COUR; — Sur l'unique moyen du pourvoi, tiré...",29 juill. 1873.,Ch. req.
2,12,"DE CASSATION. Si l'architecte, l'entrepreneur ...",26 nov. 1873.,Ch. rcq.
3,12,; — Sur les deux premiers moyens Sur le troisi...,23 juill. 1873.,Ch. civ.
4,13,DE CASSATION. 13 \nqu'un terrain inculte était...,30 juill. 1873.,Ch. civ.
5,14,DE CASSATION. torisation de les conduire dans ...,10 fév. 1873.,Ch. civ.
7,16,"LA COUR ; — Sur le premier moyen, tiré de l'ir...",4 août 1873.,Ch. civ.
8,20,"LA COUR; —Attendu, en droit, que l'art. 917, C...",10 mars 1873.,Ch. civ.
9,24,"DE CASSATION. taine Mariano Hormaza, le 19 avr...",24 nov. 1873.,Ch. req.
10,25,DE CASSATION. 25 \nsurtout l'inscription n'ava...,19 nov. 1873.,Ch. req.


In [94]:
def clean_date(row):
    print(row)
    m = re.search(r"^(.+?)—(\D+\.?)*—", row["date"] )
    if m.groups() != None:
        return m.groups()[0]