# 01 Load modules

In [15]:
import pandas as pd 
import numpy as np
import json
import os
import re

In [16]:
base_df=pd.read_csv('/home/e077926/buscode_2023/05_E2_tata/data/reciept_bbox_extraction.csv')
base_df = base_df.drop(columns=['Unnamed: 0'])
base_df.head()

Unnamed: 0,text_lines,doc_id,line_id
0,TAN WOON YANN,X00016469612,1
1,BOOK TA .K(TAMAN DAYA) SDN BND,X00016469612,2
2,789417-W,X00016469612,3
3,"NO.53 55,57 & 59, JALAN SAGU 18,",X00016469612,4
4,"TAMAN DAYA,",X00016469612,5


# 02 create entities df

In [17]:
# Utiliser str.split pour diviser chaque ligne en mots
base_df['text_lines'] = base_df['text_lines'].str.split()
# Utiliser explode pour créer une ligne pour chaque mot tout en conservant l'ID
id_df =base_df.explode('text_lines', ignore_index=True)


In [18]:
id_df['text_lines']=id_df['text_lines'].astype(str)
id_df.head()

Unnamed: 0,text_lines,doc_id,line_id
0,TAN,X00016469612,1
1,WOON,X00016469612,1
2,YANN,X00016469612,1
3,BOOK,X00016469612,2
4,TA,X00016469612,2


# 03 Create label_df

In [19]:
entity_folder_path = "/home/e077926/buscode_2023/05_E2_tata/data/SROIE2019/train/entities/"

# Créer un DataFrame vide
label_df = pd.DataFrame(columns=['value', 'entity', 'doc'])
temp_df = pd.DataFrame(columns=['value', 'entity', 'doc'])
# Parcourir les fichiers dans le dossier
for entity_file in os.listdir(entity_folder_path):
    file_name, _ = os.path.splitext(entity_file)
    file_path = os.path.join(entity_folder_path, entity_file)

    # Charger le fichier JSON
    with open(file_path, 'r') as f:
        data_dict = json.load(f)

        # Parcourir les clés et valeurs du dictionnaire
        for k, v in data_dict.items():
            # Ajouter les clés et valeurs au DataFrame
            temp_df['value']=v, 
            temp_df['entity']=k
            temp_df['doc']=file_name

            
            label_df=pd.concat([label_df, temp_df], ignore_index=True)

# Afficher le DataFrame final
label_df['value'] = label_df['value'].astype(str)
label_df.head()

Unnamed: 0,value,entity,doc
0,BOOK TA .K (TAMAN DAYA) SDN BHD,company,X00016469612
1,25/12/2018,date,X00016469612
2,"NO.53 55,57 & 59, JALAN SAGU 18, TAMAN DAYA, 8...",address,X00016469612
3,9.00,total,X00016469612
4,INDAH GIFT & HOME DECO,company,X00016469619


In [20]:
label_df['value'] = label_df['value'].str.split()
# Utiliser explode pour créer une ligne pour chaque mot tout en conservant l'ID
label_df =label_df.explode('value', ignore_index=True)
label_df.head()

Unnamed: 0,value,entity,doc
0,BOOK,company,X00016469612
1,TA,company,X00016469612
2,.K,company,X00016469612
3,(TAMAN,company,X00016469612
4,DAYA),company,X00016469612


# 04 add entities labels

We'll use BIO (Begin, Inside, Outside)

'B-' (Begin) pour le premier mot d'une entité, 

'I-' (Inside) pour les mots suivants de la même entité

'O' (Outside) pour les mots qui ne font pas partie d'une entité. 

clean label_df

## 01 Add general entities

In [21]:
id_df['value']=id_df['text_lines']
id_df['doc']=id_df['doc_id']
id_df=id_df.drop(columns=['text_lines', 'doc_id'])
id_df.head()

Unnamed: 0,line_id,value,doc
0,1,TAN,X00016469612
1,1,WOON,X00016469612
2,1,YANN,X00016469612
3,2,BOOK,X00016469612
4,2,TA,X00016469612


In [22]:
new_df = pd.merge(id_df, label_df,  how='left', on = ['doc','value'])
new_df = new_df.reindex(columns=["doc", "line_id", "value", "entity"])
new_df.head()

Unnamed: 0,doc,line_id,value,entity
0,X00016469612,1,TAN,
1,X00016469612,1,WOON,
2,X00016469612,1,YANN,
3,X00016469612,2,BOOK,company
4,X00016469612,2,TA,company


In [23]:
grouped_counts= new_df.groupby(['doc', 'line_id', 'entity']).size().reset_index(name='count')
grouped_counts['max'] = grouped_counts.groupby(['doc', 'line_id'])['count'].transform('max')
grouped_counts.head()

Unnamed: 0,doc,line_id,entity,count,max
0,X00016469612,2,company,4,4
1,X00016469612,4,address,7,7
2,X00016469612,5,address,2,2
3,X00016469612,6,address,3,3
4,X00016469612,7,address,1,1


In [24]:
# drop les valeurs qui ne sont pas égales au maxet donc en double du fait du merge
temp_df=new_df.merge(grouped_counts, how='left', on=['doc', 'line_id', 'entity'])
temp_df.drop(temp_df[temp_df['count']< temp_df['max']].index, inplace = True)
temp_df.head()

Unnamed: 0,doc,line_id,value,entity,count,max
0,X00016469612,1,TAN,,,
1,X00016469612,1,WOON,,,
2,X00016469612,1,YANN,,,
3,X00016469612,2,BOOK,company,4.0,4.0
4,X00016469612,2,TA,company,4.0,4.0


In [25]:
# Créer une colonne indiquant si chaque ligne est un doublon
temp_df['is_duplicate'] = temp_df.duplicated(subset=['doc', 'line_id', 'value'], keep=False)

# Filtrer pour garder uniquement les lignes qui sont des doublons
duplicates = temp_df[temp_df['is_duplicate']]

# Filtrer les doublons pour garder seulement ceux dont 'entity' n'apparaît pas déjà dans le même 'doc'
filtered_duplicates = duplicates[~duplicates['entity'].isin(duplicates.groupby(['doc', 'value'])['entity'].transform('first'))]

# Concaténer les lignes à garder avec les lignes qui ne sont pas des doublons
result_df = pd.concat([temp_df[~temp_df['is_duplicate']], filtered_duplicates])

# Supprimer la colonne temporaire
result_df = result_df.drop(columns=['is_duplicate'])

# Afficher le DataFrame résultant
result_df.head()

Unnamed: 0,doc,line_id,value,entity,count,max
0,X00016469612,1,TAN,,,
1,X00016469612,1,WOON,,,
2,X00016469612,1,YANN,,,
3,X00016469612,2,BOOK,company,4.0,4.0
4,X00016469612,2,TA,company,4.0,4.0


## 02 Add BIO

In [26]:
O_df=result_df.copy()
O_df['entity'] = O_df['entity'].fillna('O')
# Créer une nouvelle colonne pour les entités avec les suffixes
BIO_df=O_df.copy().reset_index()
BIO_df=BIO_df.drop(columns=['count','max', 'index'])
BIO_df.head()

Unnamed: 0,doc,line_id,value,entity
0,X00016469612,1,TAN,O
1,X00016469612,1,WOON,O
2,X00016469612,1,YANN,O
3,X00016469612,2,BOOK,company
4,X00016469612,2,TA,company


In [27]:
# Add -B and -I suffixes
for i in range(len(BIO_df)):
    entity = BIO_df.at[i, 'entity']

    if entity != 'O':
        # Si c'est la première occurrence, ajouter '-B', sinon '-I'
        suffix = '-B' if BIO_df.at[i-1, 'entity'] == 'O' else '-I'
        BIO_df.at[i, 'entity'] = entity + suffix  

In [29]:
BIO_df

Unnamed: 0,doc,line_id,value,entity
0,X00016469612,1,TAN,O
1,X00016469612,1,WOON,O
2,X00016469612,1,YANN,O
3,X00016469612,2,BOOK,company-B
4,X00016469612,2,TA,company-I
...,...,...,...,...
71715,X51008164997,51,****,O
71716,X51008164998,48,****,O
71717,X51008164998,48,****,O
71718,X51008164999,65,****,O


In [28]:
BIO_df.to_csv('/home/e077926/buscode_2023/05_E2_tata/data/bio_from_bbox_df.csv')