In [1]:
import pandas as pd
import re

In [2]:
with open('data/Reglamento Estudiantil_documento_34866874.txt') as f:
    data = f.read().splitlines()

In [14]:
# Initialize the dictionary to store the reglamento
reglamento = {}
current_title = None
current_chapter = 'CAPÍTULO 0'
current_article = None
current_key = None
skip_lines = False

for line in data:
    line = line.strip()
    
    # Skip empty lines
    if not line:
        continue

    # Skip lines that are just numbers
    if line.isdigit():
        continue
    
    # Check for "TÍTULO [NAME]"
    title_match = re.match(r'TÍTULO (.+)', line)
    if title_match:
        current_title = f'TÍTULO {title_match.group(1)}'
        reglamento[current_title] = {'CAPÍTULO 0': {}}
        current_chapter = 'CAPÍTULO 0'
        current_article = None
        current_key = None
        continue
    
    # Check for "CAPÍTULO [NAME]"
    chapter_match = re.match(r'CAPÍTULO (.+)', line)
    if chapter_match:
        current_chapter = f'CAPÍTULO {chapter_match.group(1)}'
        reglamento[current_title][current_chapter] = {}
        current_article = None
        current_key = None
        continue
    
    # Check for "ARTÍCULO [NUMBER]"
    article_match = re.match(r'ARTÍCULO (\d+)\.', line)
    if article_match:
        current_article = f'ARTÍCULO {article_match.group(1)}'
        reglamento[current_title][current_chapter][current_article] = {'texto': line[len(current_article) + 2:].strip()}
        current_key = 'texto'
        continue
    
    # Check for "Parágrafo [NUMBER]"
    paragrafo_match = re.match(r'Parágrafo (\d+)', line)
    if paragrafo_match:
        current_key = f'Parágrafo {paragrafo_match.group(1)}'
        reglamento[current_title][current_chapter][current_article][current_key] = line[len(current_key) + 1:].strip()
        continue
    
    # Check for "Literal [LETTER]"
    literal_match = re.match(r'([a-z])\.', line)
    if literal_match:
        current_key = f'Literal {literal_match.group(1)}'
        reglamento[current_title][current_chapter][current_article][current_key] = line[len(literal_match.group(1)) + 1:].strip()
        continue
    
    # Check for "Concordancias:" or "Reglamentación:"
    if line.startswith('Concordancias:') or line.startswith('Reglamentación:'):
        current_key = None
        skip_lines = True
        continue
    
    # Stop skipping lines when a new article, paragraph, or literal is found
    if skip_lines and (re.match(r'ARTÍCULO (\d+)\.', line) or re.match(r'Parágrafo (\d+)', line) or re.match(r'([a-z])\.', line)):
        skip_lines = False
    
    # Skip lines if skip_lines flag is set
    if skip_lines:
        continue
    
    # Append text to the current key if it exists
    if current_key and current_article and current_key in reglamento[current_title][current_chapter][current_article]:
        reglamento[current_title][current_chapter][current_article][current_key] += ' ' + line

print(reglamento)

{'TÍTULO PRIMERO': {'CAPÍTULO 0': {'ARTÍCULO 1': {'texto': 'La Universidad de Antioquia como institución de servicio público, en cumplimiento de su función social, será siempre un centro de cultura y de ciencia que imparta a los estudiantes formación integral y los capacite para el ejercicio profesional en las diferentes áreas del quehacer humano.'}, 'ARTÍCULO 2': {'texto': 'La función esencial de la Universidad es la docente-investigativa en los', 'Literal a': 'Desarrollar en sus estudiantes una actitud científica y crítica que les permita tener', 'Literal b': 'Contribuir al desarrollo en el estudiante de habilidades que le permitan acceder al', 'Literal c': 'Proporcionar los elementos necesarios para entender la personal ubicación dentro de la'}, 'ARTÍCULO 3': {'texto': 'La función docente-investigativa estará encaminada, fundamentalmente,'}, 'ARTÍCULO 4': {'texto': 'El proceso de enseñanza aprendizaje, para el cumplimiento de la misión'}, 'ARTÍCULO 5': {'texto': 'Para cumplir su obj

In [12]:
reglamento["TÍTULO PRIMERO"]["CAPÍTULO 0"]["ARTÍCULO 2"]["texto"]

'La función esencial de la Universidad es la docente-investigativa en los'

In [None]:
data[]