# SETTINGS

## Libraries

In [1]:
import fitz
import os
import shutil
import re
import pandas as pd
import numpy as np
from functools import wraps
import time

def timeit(func):
    @wraps(func)
    def timeit_wrapper(*args, **kwargs):
        start_time = time.perf_counter()
        result = func(*args, **kwargs)
        end_time = time.perf_counter()
        total_time = end_time - start_time
        # print(f'Function {func.__name__}{args} {kwargs} Took {total_time:.4f} seconds')
        print(f'Function {func.__name__} Took {total_time:.4f} seconds')
        return result
    return timeit_wrapper

os.getcwd()

'C:\\Users\\juani\\Documents\\3_My_Jupiter_Notebooks\\0_github\\ner'

## Loading Files

In [2]:
#levantamos el documento
my_path = r'data/seccion_segunda_20230719.pdf'
doc = fitz.open(my_path)

In [3]:
# juntamos las páginas:
text = ''
for n,page in enumerate(doc):
    if n >1:
        text += page.get_text()

In [13]:
doc.load_page(0).__dict__

{'this': <Swig Object of type 'Page *' at 0x0000019E4041D1D0>,
 'parent': None,
 '_annot_refs': <WeakValueDictionary at 0x19e4041c190>,
 'number': None,
 '_image_infos': None}

In [14]:
doc.load_page(0).get_links()

[]

In [15]:
doc.load_page(0).annots()

<generator object Page.annots at 0x0000019E401E2260>

In [16]:
doc.load_page(0).widgets()

<generator object Page.widgets at 0x0000019E401E2650>

In [19]:
doc.load_page(0).get_pixmap() 

Pixmap(DeviceRGB, IRect(0, 0, 596, 842), 0)

In [20]:
# doc = fitz.open(sys.argv[1])
page = doc[0]

import sys

import fitz


def flags_decomposer(flags):
    """Make font flags human readable."""
    l = []
    if flags & 2 ** 0:
        l.append("superscript")
    if flags & 2 ** 1:
        l.append("italic")
    if flags & 2 ** 2:
        l.append("serifed")
    else:
        l.append("sans")
    if flags & 2 ** 3:
        l.append("monospaced")
    else:
        l.append("proportional")
    if flags & 2 ** 4:
        l.append("bold")
    return ", ".join(l)




# read page text as a dictionary, suppressing extra spaces in CJK fonts
blocks = page.get_text("dict", flags=11)["blocks"]
for b in blocks:  # iterate through the text blocks
    for l in b["lines"]:  # iterate through the text lines
        for s in l["spans"]:  # iterate through the text spans
            print("")
            font_properties = "Font: '%s' (%s), size %g, color #%06x" % (
                s["font"],  # font name
                flags_decomposer(s["flags"]),  # readable font flags
                s["size"],  # font size
                s["color"],  # font color
            )
            print("Text: '%s'" % s["text"])  # simple print of text
            print(font_properties)


Text: '1. Contratos sobre Personas Jurídicas'
Font: 'HelveticaNeueLTStd-LtCn' (serifed, proportional), size 10.5508, color #000000

Text: '2. Convocatorias y Avisos Comerciales'
Font: 'HelveticaNeueLTStd-LtCn' (serifed, proportional), size 10.5508, color #000000

Text: '3. Edictos Judiciales'
Font: 'HelveticaNeueLTStd-LtCn' (serifed, proportional), size 10.5508, color #000000

Text: '4. Partidos Políticos'
Font: 'HelveticaNeueLTStd-LtCn' (serifed, proportional), size 10.5508, color #000000

Text: '5. Información y Cultura'
Font: 'HelveticaNeueLTStd-LtCn' (serifed, proportional), size 10.5508, color #000000

Text: 'Segunda Sección'
Font: 'HelveticaNeueLTStd-BdCn' (serifed, proportional, bold), size 21, color #000000

Text: ' '
Font: 'HelveticaNeueLTStd-LtCn' (serifed, proportional), size 26, color #000000

Text: 'Los documentos que aparecen en el BOLETÍN OFICIAL DE LA '
Font: 'HelveticaNeueLTStd-Roman' (serifed, proportional), size 7.75, color #000000

Text: 'REPÚBLICA ARGENTINA serán 

## Preprocessing

In [4]:
def doc_to_string(doc):
    '''
    def: convertir de formato doc (fitz) a un único string de texto para todo el documento levantado.
    input: doc (fitz)
    output: string
    '''    
    text = ''
    for n,page in enumerate(doc):
        if n >1:
            text += page.get_text()
    return text

text = doc_to_string(doc)

In [5]:
def prepro(text):
    ''' 
    Función de preprocesamiento.
    '''
    # 1. Eliminamos las cabeceras con fecha y numero de boletín:
    
    pattern = r'BOLETÍN OFICIAL Nº.*?de \d{4}'
    matches = re.findall(pattern, text, re.DOTALL)
    
    for match in matches:
        text = text.replace(match, '')
    
    # 2. Eliminamos los #F6917090F#
    pattern = r'#[IF]\d+I#|#[IF]\d+F#\n'
    text = re.sub(pattern, '', text)
    return text

text = prepro(text)

In [6]:
text

' \nCONTRATOS SOBRE PERSONAS JURÍDICAS\nSOCIEDADES ANÓNIMAS\nACEGO\xa0S.A.\nEscritura Nº\xa0757 F° 2011 Reg. 553 de fecha 5/7/2023. Federico Gastón GOÑI, nacido el 21/5/1986, DNI 32.257.649, \narquitecto, domiciliado en Calle 9, Nro 1521, Piso 2, Depto A, La Plata, Pcia Bs As, y Gabriel Sebastian GRAU, \nnacido el 17/6/1984, DNI 30.923.019, empresario, domiciliada en Calle 49 Nro 339, Planta Baja, Depto B, La Plata, \nPcia Bs As; ambos argentinos y solteros. Objeto: A) Realización de obras públicas y/o privadas, por contratación \ndirecta, licitación pública y/o privada y cualquier sistema vigente y/o a crearse, ejecución de proyecto, dirección, \nadministración, construcción, reparación y reformación de todo tipo de obras de ingeniería y arquitectura de \ninmuebles, incluyendo las actividades de la albañilería, herrería, electricidad y afines.- B) Compra, venta, \nimportación, exportación, y comercialización de todo tipo de materiales, artículos e insumos para la construcción, \ninclu

In [6]:
def split_by_chapter(text):
    ''' 
    def: particiona el texto en función de los títulos principales.
    
    '''
    headers = ['CONTRATOS SOBRE PERSONAS JURÍDICAS', 'CONVOCATORIAS Y AVISOS COMERCIALES', 'EDICTOS JUDICIALES']
    pattern = '|'.join(re.escape(header) for header in headers)
    matches = re.finditer(pattern, text)

    # Extract separators from matches
    separators = [match.group(0) for match in matches]

    # Split the text using the pattern
    chapters = re.split(pattern, text)

    # Remove empty strings from the result
    chapters = [chapter.strip() for chapter in chapters if chapter.strip()]

    # Label 'undefined' for the remaining separators
    separators.extend(['undefined'] * (len(chapters) - len(separators)))

    return chapters, separators

chapters,separators = split_by_chapter(text)
separators

['CONTRATOS SOBRE PERSONAS JURÍDICAS',
 'CONVOCATORIAS Y AVISOS COMERCIALES',
 'EDICTOS JUDICIALES',
 'CONVOCATORIAS Y AVISOS COMERCIALES',
 'EDICTOS JUDICIALES']

In [7]:
def split_by_e(chapters,chapter_name):
    '''
    def: particiona cada capítulo por escritura y genera un dataframe con nombre de capítulo // escritura // texto.
    '''
    separator_regex = r'e\.\s\d{2}/\d{2}/\d{4}\sN°\s\d+/\d+\sv\.\s\d{2}/\d{2}/\d{4}'
    sep_col = []
    ch_col = []
    part_col = []

    for n,chapter in enumerate(chapters):    
        separators = re.findall(separator_regex, chapter)
        parts = re.split(separator_regex, chapter)
        parts = [l for l in parts if bool(l)]
        if len(parts)==len(separators):
            sep_col.extend(separators)
            part_col.extend(parts)
            ch_n = [chapter_name[n] for m in range(len(parts))]
            ch_col.extend(ch_n)
    temp = pd.DataFrame({'chapter':ch_col,'escrito':sep_col,'texto':part_col})
    return temp   
temp = split_by_e(chapters,separators)
temp.head()

Unnamed: 0,chapter,escrito,texto
0,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55783/23 v. 19/07/2023,SOCIEDADES ANÓNIMAS\nACEGO S.A.\nEscritura Nº ...
1,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55773/23 v. 19/07/2023,\nAGROQUIM NORTE S.A.\nEsc 52 del 03/07/2023 F...
2,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55779/23 v. 19/07/2023,\n\n\n \nALCARI S.A.\nNúmero Correlativo 1.707...
3,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55528/23 v. 19/07/2023,\nB2FI S.A.\n1) 17/07/2023. 2) Francisco LEVIS...
4,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55539/23 v. 19/07/2023,\nCMIX ARGENTINA S.A.\nCUIT: 30-71088679-9.Com...


In [62]:
def procesar(text,file_name='NN'):
    '''
    def: integra las funciones previas.
    input: texto (string)
    output: dataframe
    '''
    text = prepro(text)
    chapters,separators = split_by_chapter(text)
    temp = split_by_e(chapters,separators)
    temp['file'] = file_name
    return temp

temp = procesar(text)
temp.head()

Unnamed: 0,chapter,escrito,texto,file
0,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55783/23 v. 19/07/2023,SOCIEDADES ANÓNIMAS\nACEGO S.A.\nEscritura Nº ...,NN
1,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55773/23 v. 19/07/2023,\nAGROQUIM NORTE S.A.\nEsc 52 del 03/07/2023 F...,NN
2,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55779/23 v. 19/07/2023,\n\n\n \nALCARI S.A.\nNúmero Correlativo 1.707...,NN
3,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55528/23 v. 19/07/2023,\nB2FI S.A.\n1) 17/07/2023. 2) Francisco LEVIS...,NN
4,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55539/23 v. 19/07/2023,\nCMIX ARGENTINA S.A.\nCUIT: 30-71088679-9.Com...,NN


In [10]:
os.getcwd()

'C:\\Users\\juani\\Documents\\3_My_Jupiter_Notebooks\\0_github\\ner'

In [13]:
os.listdir(os.getcwd()+'\\dt')

['.ipynb_checkpoints',
 'seccion_segunda_20161228.pdf',
 'seccion_segunda_20170102.pdf',
 'seccion_segunda_20170103.pdf',
 'seccion_segunda_20170104.pdf',
 'seccion_segunda_20170105.pdf']

In [63]:
@timeit
def procesar_carpeta(folder,ls=None):
    
    if not ls:
        ls = os.listdir(folder)
        ls = [l for l in ls if '.pdf' in l]    
    df = None
    
    for file in ls:
        my_path = folder+'\\'+file
        doc = fitz.open(my_path)
        text = doc_to_string(doc)
        temp = procesar(text,file)
        df = pd.concat([df,temp])
    
    
    df.reset_index(inplace=True)
    df.drop('index', axis=1, inplace=True)
    return df

---

# EJECUCION

In [23]:
folder = 'C:\\Users\\juani\\Documents\\3_My_Jupiter_Notebooks\\5_Galicia\\7_boletines'+'\\data\\'
boletines_ls = os.listdir(folder)
boletines_ls = [element for element in boletines_ls if '(' not in element]
boletines_ls = [element for element in boletines_ls if re.search(r'seccion_segunda_202', element)]
len(boletines_ls)

1320

In [64]:
folder =os.getcwd()+'\\data'
df = procesar_carpeta(folder)

Function procesar_carpeta Took 601.3305 seconds


In [65]:
df.to_pickle('df_nuevo.pkl')

In [81]:
df.head()

Unnamed: 0,chapter,escrito,texto,file
0,CONVOCATORIAS Y AVISOS COMERCIALES,e. 01/06/2017 N° 37101/17 v. 01/06/2017,BAZAR MEGA S.A.\nConstitución: Por escritura 7...,seccion_segunda_20170601.pdf
1,CONVOCATORIAS Y AVISOS COMERCIALES,e. 01/06/2017 N° 37342/17 v. 01/06/2017,\nBETHEL WORLD S.A.\nPor escritura 155 Folio 4...,seccion_segunda_20170601.pdf
2,CONVOCATORIAS Y AVISOS COMERCIALES,e. 01/06/2017 N° 37349/17 v. 01/06/2017,\nBIGPAL S.A.\n1) 24/5/17; 2) Sergio Francisco...,seccion_segunda_20170601.pdf
3,CONVOCATORIAS Y AVISOS COMERCIALES,e. 01/06/2017 N° 37374/17 v. 01/06/2017,\nBLUE FIVE S.A.\nEsc. 100 del 17/5/17: ROMERO...,seccion_segunda_20170601.pdf
4,CONVOCATORIAS Y AVISOS COMERCIALES,e. 01/06/2017 N° 37325/17 v. 01/06/2017,\nCAMUZZI ARGENTINA S.A.\nSe comunica que por ...,seccion_segunda_20170601.pdf


In [83]:
df.chapter.unique()

array(['CONVOCATORIAS Y AVISOS COMERCIALES', 'EDICTOS JUDICIALES',
       'undefined', 'CONTRATOS SOBRE PERSONAS JURÍDICAS'], dtype=object)

In [85]:
df[df.chapter=='CONTRATOS SOBRE PERSONAS JURÍDICAS'].count()

chapter    112941
escrito    112941
texto      112941
file       112941
dtype: int64

In [89]:
l = df[df.chapter=='CONTRATOS SOBRE PERSONAS JURÍDICAS'].texto.tolist()

In [68]:
l = df.texto.tolist()
len(l),len(set(l))

(496930, 278579)

In [59]:
print(l[0])

BAZAR MEGA S.A.
Constitución: Por escritura 71 del 15/04/17 Rº 4 del Partido de Pehuajó: 1) Socios: Los cónyuges en primeras 
nupcias Ana Mayra CATICHA, 02/07/71, DNI 22.143.500, CUIT 27-22143500-7; y Martin NICOLA, 22/12/72, DNI 
22.888.888, CUIT 20-22888888-6, ambos argentinos, comerciantes y domiciliados en Elizon 790 Localidad y 
Partido de Pehuajó, Prov. Bs As. 2) BAZAR MEGA  S.A. 3) 99 años. 4) $  100.000. 5) Objeto: a) Comerciales: 
Mediante la compra, venta, permuta, consignación, importación y exportación de todo tipo de productos de 
juguetería, cotillón, librería, kiosco, bazar, tienda, bijouterie, electrónica, relojería, óptica, iluminación, decoración, 
artículos para la caza y pesca deportiva y herramientas en general; comercialización de los mismos y de los 
frutos y productos derivados de ellos; b) Inmobiliaria: Mediante la compraventa, arrendamiento y administración 
de inmuebles urbanos y rurales, la subdivisión de tierras y su urbanización, como asimismo todas las op

In [34]:
my_rep = {k: v for k, v in my_dict.items() if v > 1 }
len(my_rep)

496

---

# PIDGEON ANNOTATE

In [104]:
# pip install pigeon-jupyter

In [127]:
from pigeon import annotate
annotations = annotate(
  ['I love this movie', 'I was really disappointed by the book'],
  options=['positive', 'negative']
)

HTML(value='0 examples annotated, 3 examples left')

HBox(children=(Button(description='positive', style=ButtonStyle()), Button(description='negative', style=Butto…

Output()

In [137]:
import random
random.seed(42)
sample = random.sample(l, 10000)
# sample

In [138]:
annotations = annotate(
  sample,
  options=['Estatuto', 'Otro']
)

HTML(value='0 examples annotated, 10001 examples left')

HBox(children=(Button(description='Estatuto', style=ButtonStyle()), Button(description='Otro', style=ButtonSty…

Output()

In [None]:
file = open('items.txt','w')
file.writelines(items)
file.close()

In [141]:
# Separate the tuples into two lists
letters, numbers = zip(*annotations)

# Create a DataFrame
anotados = pd.DataFrame({ 'Letters': letters, 'Numbers': numbers })

In [143]:
anotados.to_pickle('anotados.pkl')

In [146]:
anotados[anotados.Numbers=='Estatuto'].count()

Letters    371
Numbers    371
dtype: int64

In [149]:
anotados[anotados.Numbers=='Estatuto'].Letters

0      \nFLORIAN S.A.\n1) Daniel Mario Marquez DNI 10...
2      \nAVAPYME S.A.S.\nCONSTITUCIÓN: 17/10/2018. 1....
3      \nSHABBA FARMA S.R.L.\nEsc. 269 del 29-3-22 Re...
5      \nDUBAI ENERGY S.A.\nCONSTITUCION. ESCRITURA 2...
6      \nPUBLICA LAB S.A.S.\nCONSTITUCIÓN: 28/01/2020...
                             ...                        
690    \nTRANSPORTE 787 S.A.\nEsc. 12 del 4/3/2020 Re...
691    \nRODIALE S.A.\nPor escritura del 16/02/2022 s...
696    \nARQ & CO S.A.S.\nCONSTITUCIÓN: 07/08/2019. 1...
697    \n\n\n \nEVENTOS TURISTICOS Y RURALES S.R.L.\n...
699    \nTRUST STREAMING S.R.L.\nConstitución de soci...
Name: Letters, Length: 371, dtype: object

In [158]:
len(annotations)

700

In [163]:
type(annotations)

list

In [155]:
anotados[anotados.Numbers=='Estatuto'].count()

Letters    371
Numbers    371
dtype: int64

In [152]:
os.getcwd()

'C:\\Users\\juani\\Documents\\3_My_Jupiter_Notebooks\\0_github\\ner'

In [170]:
annotations_ls = [list(t) for t in annotations]

In [171]:
# Specify the file path
file_path = 'anotacion_1.txt'

# Open the file in write mode
with open(file_path, 'w') as file:
    # Write each element of the list on a separate line
    file.write('\n\n SEPARATOR \n\n'.join('{} {}'.format(x[0],x[1]) for x in annotations_ls))

In [132]:
# Separate the tuples into two lists
letters, numbers = zip(*annotations)

# Create a DataFrame
z = pd.DataFrame({ 'Letters': letters, 'Numbers': numbers })

# Display the DataFrame
print(z)

                                             Letters   Numbers
0  \nFLORIAN S.A.\n1) Daniel Mario Marquez DNI 10...  estatuto
1  \nSOLUCIONES DE SEGURIDAD VIAL S.A.\nPor Asamb...      otro
2  \nAVAPYME S.A.S.\nCONSTITUCIÓN: 17/10/2018. 1....  estatuto
3  \nSHABBA FARMA S.R.L.\nEsc. 269 del 29-3-22 Re...  estatuto
4  \nGADA GROUP S.A.\nCUIT 30-71583994-2. Por Act...      otro


In [131]:
annotations

[('\nFLORIAN\xa0S.A.\n1) Daniel Mario Marquez DNI 10788314 argentino divorciado comerciante 23/02/53 Guillermo Rawson 2715, \nLocalidad Olivos, Partido Vicente Lopez, Pcia. De Bs. As., quien suscribe 95 acciones y Alberto Rivera Luna DNI \n18820133 argentino divorciado comerciante 06/01/68 Av. Cobo 1581 CABA, quien suscribe 5 acciones. Todas \nnominativas no endosables de $\xa04.000 de Valor Nominal y de 1 Voto por acción 2) 10/02/22 4) Junin 1715 CABA \n5) Restaurante, café, bar, salón de eventos 6) 30 años 7) $\xa0400.000 8) Dirección y administración 1 a 7 directores \npor 3 ejercicios. Sin Síndicos 9) El Presidente. Presidente Daniel Mario Marquez Vicepresidente Alberto Rivera \nLuna y Suplente Gustavo Marcelo Graieb: DNI 14157635 argentino soltero productor de seguros 14/05/60 Av. \nCabildo 1695 Piso 8 Depto. 26 CABA todos con domicilio especial en la sede social 10) 30/06 Autorizado según \ninstrumento público Esc. Nº\xa016 de fecha 10/02/2022 Reg. Nº\xa0412\nPablo Damián Rodrigu

In [109]:
l

112941

---

In [174]:
anotados.count()

Letters    700
Numbers    700
dtype: int64

In [175]:
anotados.columns

Index(['Letters', 'Numbers'], dtype='object')

In [181]:
anotados[anotados.Numbers=='Estatuto']['Letters'][0]

'\nFLORIAN\xa0S.A.\n1) Daniel Mario Marquez DNI 10788314 argentino divorciado comerciante 23/02/53 Guillermo Rawson 2715, \nLocalidad Olivos, Partido Vicente Lopez, Pcia. De Bs. As., quien suscribe 95 acciones y Alberto Rivera Luna DNI \n18820133 argentino divorciado comerciante 06/01/68 Av. Cobo 1581 CABA, quien suscribe 5 acciones. Todas \nnominativas no endosables de $\xa04.000 de Valor Nominal y de 1 Voto por acción 2) 10/02/22 4) Junin 1715 CABA \n5) Restaurante, café, bar, salón de eventos 6) 30 años 7) $\xa0400.000 8) Dirección y administración 1 a 7 directores \npor 3 ejercicios. Sin Síndicos 9) El Presidente. Presidente Daniel Mario Marquez Vicepresidente Alberto Rivera \nLuna y Suplente Gustavo Marcelo Graieb: DNI 14157635 argentino soltero productor de seguros 14/05/60 Av. \nCabildo 1695 Piso 8 Depto. 26 CABA todos con domicilio especial en la sede social 10) 30/06 Autorizado según \ninstrumento público Esc. Nº\xa016 de fecha 10/02/2022 Reg. Nº\xa0412\nPablo Damián Rodriguez

In [192]:
estatutos_700 =  '\n\n SEPARATOR \n\n '.join(anotados[anotados.Numbers=='Estatuto']['Letters'].tolist())
# Specify the file path
file_path = 'estatutos_700.txt'
with open(file_path, 'w', encoding='utf-8') as file:
    # Write each element of the list on a separate line
    file.write(estatutos_700)

In [185]:
print(anotados[anotados.Numbers=='Estatuto']['Letters'].tolist()[2])


AVAPYME S.A.S.
CONSTITUCIÓN: 17/10/2018. 1.- GABRIEL DARIO LETANG, 05/03/1966, Casado/a, Argentina, SERVICIOS DE 
CONTABILIDAD, AUDITORÍA Y ASESORÍA FISCAL, COMODORO RIVADAVIA 5060 piso AVELLANEDA, DNI 
Nº 17535572, CUIL/CUIT/CDI Nº 20175355724, ANDRES MEGGIOTTO, 21/01/1977, Soltero/a, Argentina, SERVICIOS 
PERSONALES N.C.P., AZOPARDO 770 piso 9 10 CIUDAD_DE_BUENOS_AIRES, DNI Nº 25589986, CUIL/CUIT/
CDI Nº  20255899865, MARIANO TUBIO, 13/08/1979, Soltero/a, Argentina, SERVICIOS DE ASESORAMIENTO, 
DIRECCIÓN Y GESTIÓN EMPRESARIAL REALIZADOS POR INTEGRANTES DE CUERPOS DE DIRECCIÓN 
EN SOCIEDADES EXCEPTO LAS ANÓNIMAS, AZOPARDO 770 piso 9 11 CIUDAD_DE_BUENOS_AIRES, DNI 
Nº 27592663, CUIL/CUIT/CDI Nº 23275926639, . 2.- “AVAPYME SAS”. 3.- AZOPARDO 770 piso 9 10, CABA. 4.- La 
sociedad tiene por objeto dedicarse, por cuenta propia o ajena o asociada con terceros, ya sea dentro o fuera 
del país, a la creación, producción, intercambio, fabricación, transformación, industrialización, comerciali

In [182]:
print(anotados[anotados.Numbers=='Estatuto']['Letters'][1])

# trameos los documentos de 2017 a 2019

In [160]:
# 'C:\\Users\\juani\\Documents\\3_My_Jupiter_Notebooks\\5_Galicia\\7_boletines'
source_folder = r'D:\7_boletines\data\CABA'
destination_folder = r'C:\\Users\\juani\\Documents\\3_My_Jupiter_Notebooks\\5_Galicia\\7_boletines\\data'
boletines = os.listdir(source_folder)
boletines_repetidos = [element for element in boletines if '(' in element]
len(boletines_repetidos), len(boletines)
sel_bol = [bol for bol in boletines if bol not in boletines_repetidos]
sel_bol_17 = [element for element in sel_bol if re.search(r'seccion_segunda_2017', element)]
sel_bol_18 = [element for element in sel_bol if re.search(r'seccion_segunda_2018', element)]
sel_bol_19 = [element for element in sel_bol if re.search(r'seccion_segunda_2019', element)]
sel_1 = sel_bol_17+ sel_bol_18+sel_bol_19
len(sel_1)

736

In [162]:
# Paths for the source and destination folders

# Iterate through the file list and copy each file
for file_name in sel_1:
    source_path = os.path.join(source_folder, file_name)
    destination_path = os.path.join(destination_folder, file_name)
    
    shutil.copy2(source_path, destination_path)

print("Files copied successfully.")

Files copied successfully.


# Repetimos Ejecución

In [164]:
df2 = procesar_carpeta(folder,sel_1)

Function procesar_carpeta Took 200.9118 seconds


In [165]:
df2.to_pickle('df2.pkl')

In [171]:
df3 = pd.concat([df,df2])
df3.to_pickle('df3.pkl')

In [172]:
df3

Unnamed: 0,chapter,escrito,texto
0,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55783/23 v. 19/07/2023,SOCIEDADES ANÓNIMAS\nACEGO S.A.\nEscritura Nº ...
1,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55773/23 v. 19/07/2023,\nAGROQUIM NORTE S.A.\nEsc 52 del 03/07/2023 F...
2,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55779/23 v. 19/07/2023,\n\n\n \nALCARI S.A.\nNúmero Correlativo 1.707...
3,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55528/23 v. 19/07/2023,\nB2FI S.A.\n1) 17/07/2023. 2) Francisco LEVIS...
4,CONTRATOS SOBRE PERSONAS JURÍDICAS,e. 19/07/2023 N° 55539/23 v. 19/07/2023,\nCMIX ARGENTINA S.A.\nCUIT: 30-71088679-9.Com...
...,...,...,...
202395,EDICTOS JUDICIALES,e. 17/07/2023 N° 55072/23 v. 21/07/2023,\nJUZGADO NACIONAL EN LO COMERCIAL NRO. 26 - S...
202396,EDICTOS JUDICIALES,e. 18/07/2023 N° 50514/23 v. 19/07/2023,\nJUZGADO NACIONAL EN LO CIVIL NRO. 6 - SECRET...
202397,EDICTOS JUDICIALES,e. 17/07/2023 N° 54813/23 v. 21/07/2023,\nCÁMARA FEDERAL DE SEGURIDAD SOCIAL SECRETARÍ...
202398,EDICTOS JUDICIALES,e. 17/07/2023 N° 55045/23 v. 21/07/2023,\nREMATES JUDICIALES \nANTERIORES\nJUZGADO NAC...


# ESCRIBANOS

In [None]:
Verónica Olicino (Mat. 5340)
María Beatriz Oscar Collins (Mat 252)
Guillermo Zoppi (Mat 4357)
María Martha Fermepin (Mat 3726)
María Beatriz Benchoa Echeverria (Mat -)
Cinthia Tomasini (Mat 4839)
María Marcela Coppola (Mat 5411)
Ricardo A. Doldan Aristizabal (Mat 4563)
Natalia S. Alonso (Mat 5261)
Guillermo A. Mendez (Mat 2410)

In [224]:
print(df3[df3['chapter']=='CONTRATOS SOBRE PERSONAS JURÍDICAS']['texto'].tolist()[12])


GC SOLUCIONES S.A.
Por Escritura Nº 819 F° 2158 Reg. 553 fecha 18/07/2023, CALABRESI, Mauricio Sebastián 11/11/1980, 28504814, 
60%, 180000 acciones/votos Martin Castro 2338 Ituzaingó Prov. Bs. As.; VILLARROEL, Juan Adrián, 20/08/1975, 
24856038, 20%, 60000 acciones/votos, Constantino Gaito 504 Lomas de Zamora, Prov. Bs. As., Accinti, Mariano 
Daniel 21/10/1982, 29620915, 20%, 20000 acciones/votos, Salcedo 3483, Castelar, Prov. Bs. As., todos argentinos, 
comerciantes, solteros. OBJETO: venta de materiales para la construcción, materiales para instalaciones eléctricas 
y de gas, como así también los servicios realizados por mantenimiento en obras en curso o edificios o viviendas 
en general. Las actividades que lo requieran serán ejercidas por profesionales con título habilitante. Cierre de 
Ejercicio 31/12. Capital $ 300.000, 300000 acciones ordinarias, nominativas de un (1) peso cada una se suscriben 
en un 100% y se integran en un 25%. Duración 30 años. Directorio por 3 ejercicios:

In [188]:
(df3['texto'].eq('Collins')).any()

False

---

# Multicolumna

In [236]:
def doc_to_string_multi(doc):
    '''
    def: convertir de formato doc (fitz) a un único string de texto para todo el documento levantado.
    input: doc (fitz)
    output: string
    '''    
    text = ''
    for n,page in enumerate(doc):
        text += page.get_text()
    return text

text = doc_to_string_multi(doc)

In [254]:
def split_by_chapter_multi(text):
    ''' 
    def: particiona el texto en función de los títulos principales.
    
    '''
    headers = ['Contratos sobre \nPersonas Jurídicas', 'Convocatorias y \nAvisos Comerciales', 'Edictos Judiciales','Partidos Políticos','Información y Cultura']
    pattern = '|'.join(re.escape(header) for header in headers)
    matches = re.finditer(pattern, text)

    # Extract separators from matches
    separators = [match.group(0) for match in matches]

    # Split the text using the pattern
    chapters = re.split(pattern, text)

    # Remove empty strings from the result
    chapters = [chapter.strip() for chapter in chapters if chapter.strip()]

    # Label 'undefined' for the remaining separators
    separators.extend(['undefined'] * (len(chapters) - len(separators)))

    return chapters, separators

chapters,separators = split_by_chapter_multi(text)
separators

['Edictos Judiciales',
 'Partidos Políticos',
 'Información y Cultura',
 'Edictos Judiciales',
 'Partidos Políticos',
 'Contratos sobre \nPersonas Jurídicas',
 'Convocatorias y \nAvisos Comerciales',
 'Edictos Judiciales',
 'Partidos Políticos',
 'Partidos Políticos',
 'Convocatorias y \nAvisos Comerciales',
 'Edictos Judiciales',
 'undefined']

In [10]:
print(chapters[6])

IndexError: list index out of range

In [12]:
print(chapters[0])

SOCIEDADES ANÓNIMAS
ACEGO S.A.
Escritura Nº 757 F° 2011 Reg. 553 de fecha 5/7/2023. Federico Gastón GOÑI, nacido el 21/5/1986, DNI 32.257.649, 
arquitecto, domiciliado en Calle 9, Nro 1521, Piso 2, Depto A, La Plata, Pcia Bs As, y Gabriel Sebastian GRAU, 
nacido el 17/6/1984, DNI 30.923.019, empresario, domiciliada en Calle 49 Nro 339, Planta Baja, Depto B, La Plata, 
Pcia Bs As; ambos argentinos y solteros. Objeto: A) Realización de obras públicas y/o privadas, por contratación 
directa, licitación pública y/o privada y cualquier sistema vigente y/o a crearse, ejecución de proyecto, dirección, 
administración, construcción, reparación y reformación de todo tipo de obras de ingeniería y arquitectura de 
inmuebles, incluyendo las actividades de la albañilería, herrería, electricidad y afines.- B) Compra, venta, 
importación, exportación, y comercialización de todo tipo de materiales, artículos e insumos para la construcción, 
incluyendo materiales de corralón, materiales eléctricos, maq

In [225]:
#levantamos el documento
my_path = r'data/seccion_segunda_20161228.pdf'
doc = fitz.open(my_path)
text = doc_to_string(doc)
temp = procesar(text)

In [243]:
chapters, headers = split_by_chapter(text)


In [242]:
headers

['undefined']

In [241]:
print(text)

1. Contratos sobre Personas Jurídicas
2. Convocatorias y Avisos Comerciales
Segunda Sección 
3. Edictos Judiciales
4. Partidos Políticos
5. Información y Cultura
Precio $ 20,00
Los documentos que aparecen en el BOLETÍN OFICIAL DE LA REPÚBLICA 
ARGENTINA serán tenidos por auténticos y obligatorios por el efecto de esta 
publicación y por comunicados y suficientemente circulados dentro de todo el 
territorio nacional (Decreto Nº 659/1947). La  edición electrónica del Boletín Oficial 
produce idénticos efectos jurídicos que su edición impresa (Decreto Nº 207/2016). 
PRESIDENCIA DE LA NACIÓN
SecretarÍa LegaL y tÉcnica: DR. PABLO CLUSELLAS - Secretario
DirecciÓn nacionaL DeL regiStro oficiaL: LIC. RICARDO SARINELLI - Director nacional
e-mail: dnro@boletinoficial.gob.ar
registro nacional de la Propiedad intelectual nº 5.218.874
DomiciLio LegaL: Suipacha 767-c1008aao - ciudad autónoma de Buenos aires
tel. y fax 5218-8400 y líneas rotativas
Segunda Sección
Buenos Aires,
miércoles 28 
de diciem

In [229]:
temp

Unnamed: 0,chapter,escrito,texto
0,undefined,e. 28/12/2016 N° 99392/16 v. 28/12/2016,Miércoles 28 de diciembre de 2016 \nSegunda Se...
1,undefined,e. 28/12/2016 N° 99288/16 v. 28/12/2016,\nISAGRO ARGENTINA LIMITADA S.R.L.\nPor Reunió...
2,undefined,e. 28/12/2016 N° 99320/16 v. 28/12/2016,\nJEETAN S.R.L.\nPor instrumento privado de 19...
3,undefined,e. 28/12/2016 N° 99327/16 v. 28/12/2016,\nLIBERCAM S.R.L.\nPor instrumento privado de ...
4,undefined,e. 28/12/2016 N° 99450/16 v. 28/12/2016,\nMAGRIN S.R.L.\nInstrumento \nprivado: \n26/1...
...,...,...,...
130,undefined,e. 27/12/2016 N° 98838/16 v. 02/01/2017,\nJUZGADO FEDERAL \nSECRETARÍA PENAL NRO. 3 \n...
131,undefined,e. 23/12/2016 N° 97712/16 v. 29/12/2016,\nJUZGADO FEDERAL EN LO CRIMINAL \nY CORRECCIO...
132,undefined,e. 22/12/2016 N° 97326/16 v. 28/12/2016,\nJUZGADO FEDERAL EN LO CRIMINAL \nY CORRECCIO...
133,undefined,e. 26/12/2016 N° 98540/16 v. 30/12/2016,\nJUZGADO FEDERAL EN LO CRIMINAL \nY CORRECCIO...


In [228]:
print(text)

 Miércoles 28 de diciembre de 2016 
Segunda Sección 
BOLETÍN OFICIAL Nº 33.532 
3
puesta en marcha de sistemas privados de 
Medicina Asistencial Prepagos y/o para Obras 
Sociales y/o Sistemas de Capacitación; Audi-
toria y contralor de prestaciones asistenciales; 
Relevamientos sanitarios; Arquitectura sanita-
ria; técnicas de productividad y Eficiencia de 
establecimientos sanitarios; Asesoramientos 
en equipamientos hospitalarios; Estudios de 
factibilidad; Programas de capacitación profe-
sional; Educación para la salud; comercializa-
ción integral para instituciones profesionales y 
empresas del sector; Programas de informática 
medica; Estudios de Bioestadística; Aseso-
ramiento en programas de bioseguridad. c) 
Explotación, alquiler y locación de servicios de 
vehículos de ambulancia, simples o de Unidad 
Coronaria, para servicios urbanos o rurales, 
territorio nacional o provincial, ya sea a través 
de vehículos propios o de terceros, subcontra-
tados; pudiendo establecer sucurs