In [None]:
import pandas as pd
import re

# === 1. Leer el archivo completo ===
with open('../files/input/clusters_report.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# === 2. Limpiar texto y dividir por bloques ===
# Quitamos las líneas de guiones y separamos cada bloque de cluster
text = re.sub(r'-{5,}', '', text)
bloques = re.split(r'\n\s*(?=\d+\s)', text.strip())

data = []

# === 3. Procesar cada bloque ===
for bloque in bloques:
    lineas = bloque.strip().split('\n')
    if not lineas:
        continue

    # Extraer los primeros datos (cluster, cantidad, porcentaje)
    match = re.match(r'\s*(\d+)\s+(\d+)\s+([\d,]+ ?%)\s*(.*)', lineas[0])
    if not match:
        continue

    cluster = int(match.group(1))
    cantidad = int(match.group(2))
    porcentaje = match.group(3).replace(',', '.')
    palabras = match.group(4)

    # Si el bloque tiene más líneas, las unimos al texto de palabras clave
    if len(lineas) > 1:
        palabras += ' ' + ' '.join(lineas[1:])

    # Limpiar espacios y formato
    palabras = re.sub(r'\s+', ' ', palabras).strip()
    palabras = palabras.replace(' ,', ',').replace(' ,', ',')
    
    data.append([cluster, cantidad, porcentaje, palabras])

# === 4. Crear el DataFrame ===
df = pd.DataFrame(data, columns=[
    'cluster',
    'cantidad_de_palabras_clave',
    'porcentaje_de_palabras_clave',
    'principales_palabras_clave'
])

# === 5. Ajustar tipos ===
df['porcentaje_de_palabras_clave'] = (
    df['porcentaje_de_palabras_clave']
    .str.replace('%', '', regex=False)
    .astype(float)
)

# === 6. Mostrar resultado ===
print(df.head(3))


None
<re.Match object; span=(0, 115), match='1     105             15,9 %          maximum pow>
<re.Match object; span=(0, 114), match='2     102             15,4 %          support vec>
<re.Match object; span=(0, 115), match='3     89              13,4 %          smart grid,>
<re.Match object; span=(0, 114), match='4     60              9,1 %           wind   turb>
<re.Match object; span=(0, 114), match='5     52              7,9 %           electric ve>
<re.Match object; span=(0, 114), match='6     51              7,7 %           particle  s>
<re.Match object; span=(0, 114), match='7     42              6,3 %           multi-objec>
<re.Match object; span=(0, 116), match='8     38              5,7 %           genetic alg>
<re.Match object; span=(0, 115), match='9     35              5,3 %           anfis,   gl>
<re.Match object; span=(0, 116), match='10    27              4,1 %           micro grid,>
<re.Match object; span=(0, 116), match='11    22              3,3 %           hydroge