# Industrialisation du parsing XBRL

## Setup

In [25]:
import re
import pandas as pd

from bs4 import BeautifulSoup

pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_row', None)
pd.set_option('display.max_columns', None)

def display(data):
    return data.head(2)

In [2]:
with open("ca_cib_deu_2022.html") as fp:
    soup = BeautifulSoup(fp, 'html.parser')

## Process

### Parsing contexts

In [144]:
def extract_period(tag):
    if tag.find_all('xbrli:instant'):
        period = {
            "instant": tag.find_all('xbrli:instant')[0].string
        }

    else:
        period = {
            "startdate": tag.find_all('xbrli:startdate')[0].string,
            "enddate": tag.find_all('xbrli:enddate')[0].string
        }
    
    return period


def extract_dimensions(tag):
    dimensions = {}

    for dimension in tag.find_all('xbrldi:explicitmember'):
        dimensions[dimension.attrs['dimension']] = dimension.string
        
    return dimensions


def parse_context(soup):
    xbrli_contexts = soup.find_all('xbrli:context')
    
    parsed_xbrli_contexts = []

    for tag in xbrli_contexts:

        parsed_xbrli_contexts.append({
            "ID": tag.attrs['id'],
            "period": extract_period(tag),
            "dimensions": extract_dimensions(tag)})
        
        
    return pd.DataFrame(parsed_xbrli_contexts)

In [145]:
def flatten_dates_from_period(contexts):
    return pd.concat([contexts, contexts['period'].apply(pd.Series)], axis=1)

def flatten_dimensions(contexts):
    return pd.concat([contexts, contexts['dimensions'].apply(pd.Series)], axis=1)

In [146]:
contexts = parse_context(soup)
contexts = flatten_dates_from_period(contexts)
contexts = flatten_dimensions(contexts)
contexts = contexts.drop(columns=['period', 'dimensions'])

contexts.head()

Unnamed: 0,ID,startdate,enddate,instant,ifrs-full:ComponentsOfEquityAxis,ifrs-full:RetrospectiveApplicationAndRetrospectiveRestatementAxis
0,C03814190009,2022-01-01,2022-12-31,,,
1,C02039182647,2021-01-01,2021-12-31,,,
2,C01907571707,,,2022-12-31,,
3,C01020068026,,,2021-12-31,,
4,C0-956718228794403669132564345,,,2020-12-31,ifrs-full:IssuedCapitalMember,ifrs-full:PreviouslyStatedMember


### Parsing numerical variables

In [53]:
def parse_numerical_variables(soup):
    ix_nonfraction = soup.find_all('ix:nonfraction')
    parsed_ix_nonfraction = []

    for tag in ix_nonfraction:
        parsed_tag = {
            "ID": tag["contextref"],
            "decimals": tag["decimals"],
            "name": tag["name"],
            "format": tag["format"],
            "scale": tag["scale"],
            "value": tag.string
        }

        parsed_ix_nonfraction.append(parsed_tag)
        
    return pd.DataFrame(parsed_ix_nonfraction)

def parse_variable_name(data):
    data['name'] = data['name'].apply(lambda x: x.split(':')[1])
    return data

In [209]:
def compute_real_value(data):
    data['real_value'] = data['value'].copy()

    data['real_value'] = data['real_value'].apply(lambda x: x.replace(' ', '').replace(',', '.').replace('\xa0', ''))
    data['real_value'] = data['real_value'].replace('‐', 0)
    data['real_value'] = data['real_value'].replace('-', 0)
    
    data['real_value'] = data['real_value'].astype('float')
    
    data['real_value'] = (10 ** data['scale'].astype(int)) * data['real_value']
    
    return data

In [210]:
numerical_variables = parse_numerical_variables(soup)
numerical_variables = parse_variable_name(numerical_variables)
numerical_variables = compute_real_value(numerical_variables)

numerical_variables.head(10)

Unnamed: 0,ID,decimals,name,format,scale,value,real_value
0,C03814190009,-6,RevenueFromInterest,ixt:num-comma-decimal,6,8 928,8928000000.0
1,C02039182647,-6,RevenueFromInterest,ixt:num-comma-decimal,6,4 933,4933000000.0
2,C03814190009,-6,InterestExpense,ixt:num-comma-decimal,6,5 100,5100000000.0
3,C02039182647,-6,InterestExpense,ixt:num-comma-decimal,6,1 556,1556000000.0
4,C03814190009,-6,FeeAndCommissionIncome,ixt:num-comma-decimal,6,1 673,1673000000.0
5,C02039182647,-6,FeeAndCommissionIncome,ixt:num-comma-decimal,6,1 662,1662000000.0
6,C03814190009,-6,FeeAndCommissionExpense,ixt:num-comma-decimal,6,768,768000000.0
7,C02039182647,-6,FeeAndCommissionExpense,ixt:num-comma-decimal,6,721,721000000.0
8,C03814190009,-6,GainsLossesOnFinancialInstrumentsAtFairValueThroughProfitOrLoss,ixt:num-comma-decimal,6,1 918,1918000000.0
9,C02039182647,-6,GainsLossesOnFinancialInstrumentsAtFairValueThroughProfitOrLoss,ixt:num-comma-decimal,6,1 501,1501000000.0


### Parsing text variables

In [211]:
def parse_text_variables(soup):
    ix_nonnumeric = soup.find_all('ix:nonnumeric')
    parsed_ix_nonnumeric = []

    for tag in ix_nonnumeric:
        parsed_tag = {
            "ID": tag["contextref"],
            "name": tag["name"],
            "value": tag.text
        }

        parsed_ix_nonnumeric.append(parsed_tag)
        
    return pd.DataFrame(parsed_ix_nonnumeric)

In [212]:
text_variables = parse_text_variables(soup)
text_variables = parse_variable_name(text_variables)

text_variables.iloc[10:16, :]

Unnamed: 0,ID,name,value
10,C03814190009,DisclosureOfGeneralInformationAboutFinancialStatementsExplanatory,Arrêtés par le conseil d’administration en date du 7 février 2023 et soumis à l’approbation de l’Assemblée générale ordinaire en date du 3 mai 2023.
11,C03814190009,DisclosureOfAuthorisationOfFinancialStatementsExplanatory,Arrêtés par le conseil d’administration en date du 7 février 2023 et soumis à l’approbation de l’Assemblée générale ordinaire en date du 3 mai 2023.
12,C03814190009,DescriptionOfNatureOfEntitysOperationsAndPrincipalActivities,"1. CADRE GÉNÉRAL 1.1. Présentation juridique de Crédit Agricole Corporate and Investment Bank DÉNOMINATION SOCIALE : Crédit Agricole Corporate and Investment Bank NOMS COMMERCIAUX : Crédit Agricole Corporate and Investment Bank - Crédit Agricole CIB – CACIB ADRESSE DU SIÈGE SOCIAL DE LA SOCIÉTÉ : 12, place des États-Unis CS 70052 92547 MONTROUGE CEDEX France IMMATRICULATION : Immatriculation au registre du commerce et des sociétés de Nanterre sous le numéro 304 187 701. CODE NAF : 6419 Z (APE) CODE LEI : 1VUV7VQFKUOQSJ21A208 FORME JURIDIQUE : Crédit Agricole Corporate and Investment Bank est une société anonyme de droit français (à Conseil d’administration) régie par les dis- positions législatives et réglementaires applicables aux établissements de crédit et aux sociétés anonymes ainsi que par ses statuts. La Société est afﬁliée depuis décembre 2011 au réseau Crédit Agricole au sens du Code monétaire et ﬁnancier. CAPITAL SOCIAL : EUR 7 851 636 342 OBJET SOCIAL (ART. 3 DES STATUTS DE LA SOCIÉTÉ) : La Société a pour objet, en France et à l’étranger : y d’effectuer toutes opérations de banque et toutes opérations ﬁnancières et notamment : - la réception de fonds, l’octroi de prêts, d’avances, de crédits, de ﬁnancements, de garanties, la réalisation de tous encaissements, règlements, recouvrements ; - le conseil en matière ﬁnancière et notamment de ﬁnancement, d’endettement, de souscription, d’émission, de placement, d’acquisi- tion, de cession, de fusion, de restructuration ; - la conservation, la gestion, l’achat, la vente, l’échange, le courtage, l’arbitrage, de tous titres, droits sociaux, produits ﬁnanciers, dérivés, devises, marchandises, métaux précieux et autres valeurs de toute nature ; y de fournir tous services d’investissement et services connexes au sens du Code monétaire et ﬁnancier et de tout texte subséquent ; y de créer et de participer à toutes entreprises, groupements, sociétés par voie d’apport, de souscription, d’achat d’actions ou de droits sociaux, de fusion, ou de toute autre manière ; y d’effectuer toutes opérations commerciales, industrielles, mobilières ou immobilières se rattachant directement ou indirectement aux objets ou à l’un des objets ci-dessus ou à tous objets similaires ou connexes ; y le tout, tant pour elle-même que pour le compte de tiers ou en participation, et sous quelque forme que ce soit."
13,C03814190009,DisclosureOfRelatedPartyExplanatory,1. CADRE GÉNÉRAL
14,C03814190009,NameOfReportingEntityOrOtherMeansOfIdentification,Crédit Agricole Corporate and Investment Bank
15,C03814190009,AddressOfRegisteredOfficeOfEntity,"ADRESSE DU SIÈGE SOCIAL DE LA SOCIÉTÉ : 12, place des États-Unis CS 70052 92547 MONTROUGE CEDEX France"


## Jointures

In [213]:
print(f"Nombre de variables numériques : {numerical_variables.shape[0]}")
print(f"Nombre de variables textuelles : {text_variables.shape[0]}")

Nombre de variables numériques : 894
Nombre de variables textuelles : 129


In [214]:
prep_numerical_variables = numerical_variables.loc[:, ['ID', 'name', 'real_value']]
prep_numerical_variables = prep_numerical_variables.merge(contexts, how='left', on='ID')

prep_text_variables = text_variables.loc[:, ['ID', 'name', 'value']]
prep_text_variables = prep_text_variables.merge(contexts, how='left', on='ID')

In [215]:
display(prep_numerical_variables)

Unnamed: 0,ID,name,real_value,startdate,enddate,instant,ifrs-full:ComponentsOfEquityAxis,ifrs-full:RetrospectiveApplicationAndRetrospectiveRestatementAxis
0,C03814190009,RevenueFromInterest,8928000000.0,2022-01-01,2022-12-31,,,
1,C02039182647,RevenueFromInterest,4933000000.0,2021-01-01,2021-12-31,,,


In [216]:
display(prep_text_variables.iloc[13:15, :])

Unnamed: 0,ID,name,value,startdate,enddate,instant,ifrs-full:ComponentsOfEquityAxis,ifrs-full:RetrospectiveApplicationAndRetrospectiveRestatementAxis
13,C03814190009,DisclosureOfRelatedPartyExplanatory,1. CADRE GÉNÉRAL,2022-01-01,2022-12-31,,,
14,C03814190009,NameOfReportingEntityOrOtherMeansOfIdentification,Crédit Agricole Corporate and Investment Bank,2022-01-01,2022-12-31,,,


## Tests de généralisation

In [217]:
samples_deu = {}

with open("LOREAL_DEU_2022_PRODUCTION_FR.html") as fp:
    samples_deu['loreal'] = BeautifulSoup(fp, 'html.parser')
    
with open("jcdecaux-2022-12-31-fr.html") as fp:
    samples_deu['jcdecaux'] = BeautifulSoup(fp, 'html.parser')

In [226]:
def process_contexts(soup):
    contexts = parse_context(soup)
    contexts = flatten_dates_from_period(contexts)
    contexts = flatten_dimensions(contexts)
    contexts = contexts.drop(columns=['period', 'dimensions'])
    return contexts

def process_numerical_variables(soup):
    numerical_variables = parse_numerical_variables(soup)
#    numerical_variables = parse_variable_name(numerical_variables)
    numerical_variables = compute_real_value(numerical_variables)
    
    return numerical_variables

def process_text_variables(soup):
    text_variables = parse_text_variables(soup)
#    text_variables = parse_variable_name(text_variables)
    
    return text_variables

def process_deu(soup):
    contexts = process_contexts(soup)
    numerical_variables = process_numerical_variables(soup)
    text_variables = process_text_variables(soup)
    
    return {
        "contexts": contexts, 
        "numerical_variables": numerical_variables, 
        "text_variables": text_variables
    }

In [227]:
#loreal = process_deu(samples_deu['loreal'])
jcdecaux = process_deu(samples_deu['jcdecaux'])

In [228]:
display(jcdecaux['contexts'])

Unnamed: 0,ID,startdate,enddate,instant,ifrs-full:ComponentsOfEquityAxis,ifrs-full:RetrospectiveApplicationAndRetrospectiveRestatementAxis
0,contexte_01012022-31122022,2022-01-01,2022-12-31,,,
1,contexte_31122021,,,2021-12-31,,


In [229]:
jcdecaux['numerical_variables'].head(10)

Unnamed: 0,ID,decimals,name,format,scale,value,real_value
0,contexte_31122022,-5,ifrs-full:Goodwill,ixt:num-comma-decimal,6,"1 748,7",1748700000.0
1,contexte_31122021,-5,ifrs-full:Goodwill,ixt:num-comma-decimal,6,"1 609,3",1609300000.0
2,contexte_31122022,-5,ifrs-full:IntangibleAssetsOtherThanGoodwill,ixt:num-comma-decimal,6,6240,624000000.0
3,contexte_31122021,-5,ifrs-full:IntangibleAssetsOtherThanGoodwill,ixt:num-comma-decimal,6,5144,514400000.0
4,contexte_31122022,-5,ifrs-full:PropertyPlantAndEquipment,ixt:num-comma-decimal,6,"1 279,0",1279000000.0
5,contexte_31122021,-5,ifrs-full:PropertyPlantAndEquipment,ixt:num-comma-decimal,6,"1 203,9",1203900000.0
6,contexte_31122022,-5,ifrs-full:RightofuseAssets,ixt:num-comma-decimal,6,"2 725,3",2725300000.0
7,contexte_31122021,-5,ifrs-full:RightofuseAssets,ixt:num-comma-decimal,6,"2 964,8",2964800000.0
8,contexte_31122022,-5,ifrs-full:InvestmentAccountedForUsingEquityMethod,ixt:num-comma-decimal,6,4119,411900000.0
9,contexte_31122021,-5,ifrs-full:InvestmentAccountedForUsingEquityMethod,ixt:num-comma-decimal,6,4144,414400000.0


In [230]:
display(jcdecaux['text_variables'])

Unnamed: 0,ID,name,value
0,contexte_01012022-31122022,ifrs-full:DisclosureOfNotesAndOtherExplanatoryInformationExplanatory,1.0
1,contexte_01012022-31122022,ifrs-full:DisclosureOfSummaryOfSignificantAccountingPoliciesExplanatory,1.0
