In [267]:

import pandas as pd

# Ruta al archivo de entrada
file_path = "../files/input/clusters_report.txt"

# Listas para almacenar los datos procesados
clusters = []
cantidad_palabras = []
porcentajes = []
palabras_clave = []

# Abrir y procesar el archivo
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()

# Procesar cada línea del archivo
palabras_clave_temp = []
for i, line in enumerate(lines):
    # Omitir encabezados y separadores
    if i < 4 or line.startswith('-'):
        continue

    try:
        # Intentar convertir los primeros caracteres en un número
        cluster_num = int(line.strip()[:3])
        # Si tenemos palabras clave acumuladas, guardarlas antes de continuar
        if palabras_clave_temp:
            palabras_clave.append(" ".join(palabras_clave_temp).strip())
            palabras_clave_temp = []
        
        # Extraer datos del cluster actual
        parts = lines[i].split()
        clusters.append(int(parts[0]))
        cantidad_palabras.append(int(parts[1]))
        porcentajes.append(float(parts[2].replace(",",".")))
        palabras_clave_temp.append((" ".join(parts[4:])).replace("  "," ").strip())
    except ValueError:
        # Si no es un número, acumular palabras clave
        palabras_clave_temp.append(line.strip())

# Añadir las últimas palabras clave acumuladas
if palabras_clave_temp:
    palabras_clave.append(" ".join(palabras_clave_temp).strip())

# Verificar que todas las listas tengan la misma longitud
##assert len(clusters) == len(cantidad_palabras) == len(porcentajes) == len(palabras_clave), \
    ##"Las listas no tienen la misma longitud."

# Crear el DataFrame
df = pd.DataFrame({
    "cluster": clusters,
    "cantidad_de_palabras_clave": cantidad_palabras,
    "porcentaje_de_palabras_clave": porcentajes,
    "principales_palabras_clave": palabras_clave
})
def transformar_palabras_clave(palabras_clave):
    # Reemplazar puntos y dividir por coma y espacio
    palabras = palabras_clave.replace(".", "").replace("  "," ").replace("   "," ").strip().split(", ")
    
    # Crear una lista con coma y espacio en todos los elementos excepto el último
    palabras_con_coma = [el.strip() + ", " for el in palabras[:-1]] + [palabras[-1]]  # Último elemento sin coma
    
    # Convertir la lista en una tupla
    return ("".join((palabras_con_coma)).replace("  "," "))

# Aplicar la transformación a toda la columna
df['principales_palabras_clave'] = df['principales_palabras_clave'].apply(transformar_palabras_clave)


In [268]:
k = df.principales_palabras_clave.to_list()[0]

In [269]:
k

'maximum power point tracking, fuzzy-logic based control, photo voltaic (pv), photo-voltaic system, differential evolution algorithm, evolutionary algorithm, double-fed induction generator (dfig), ant colony optimisation, photo voltaic array, firefly algorithm, partial shade'

In [270]:
type(k)

str

In [None]:
x= (
        "maximum power point tracking, "
        "fuzzy-logic based control, "
        "photo voltaic (pv), "
        "photo-voltaic system, "
        "differential evolution algorithm, "
        "evolutionary algorithm, "
        "double-fed induction generator (dfig), "
        "ant colony optimisation, "
        "photo voltaic array, "
        "firefly algorithm, "
        "partial shade"
    )

In [272]:
k == x

True

In [273]:
k[:112]+k[113:] == x

False

In [274]:
type(x)

str

In [275]:
from difflib import Differ

def identificar_diferencias(cadena1, cadena2):
    # Crear un objeto Differ para comparar las cadenas
    d = Differ()
    # Dividir las cadenas por palabras o caracteres
    diferencia = list(d.compare(cadena1.split(), cadena2.split()))
    # Imprimir las diferencias con formato
    print("\n".join(diferencia))

In [276]:
identificar_diferencias(x, k)

  maximum
  power
  point
  tracking,
  fuzzy-logic
  based
  control,
  photo
  voltaic
  (pv),
  photo-voltaic
  system,
  differential
  evolution
  algorithm,
  evolutionary
  algorithm,
  double-fed
  induction
  generator
  (dfig),
  ant
  colony
  optimisation,
  photo
  voltaic
  array,
  firefly
  algorithm,
  partial
  shade


In [277]:
def diferencias_con_posiciones(cadena1, cadena2):
    # Asegurar que ambas cadenas tengan la misma longitud rellenando con espacios
    max_len = max(len(cadena1), len(cadena2))
    cadena1 = cadena1.ljust(max_len)
    cadena2 = cadena2.ljust(max_len)

    diferencias = []  # Lista para almacenar las posiciones de las diferencias
    for i, (char1, char2) in enumerate(zip(cadena1, cadena2)):
        if char1 != char2:
            diferencias.append(i)

    # Contar las diferencias
    num_diferencias = len(diferencias)

    return num_diferencias, diferencias


num_diferencias, posiciones = diferencias_con_posiciones(k[:112]+k[113:122]+k[123:] , x)

print(f"Número de diferencias: {num_diferencias}")
print(f"Posiciones de las diferencias: {posiciones}")

Número de diferencias: 158
Posiciones de las diferencias: [112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 202, 203, 204, 205, 206, 207, 208, 209, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273]


In [278]:
k[112]

'e'

In [279]:
k[122]

'a'

In [280]:
k[100:120]

'ifferential evolutio'

In [281]:
x[100:120]

'ifferential evolutio'

In [None]:
u= 
        "maximum power point tracking, "
        "fuzzy-logic based control, "
        "photo voltaic (pv), "
        "photo-voltaic system, "
        "differential evolution algorithm, "
        "evolutionary algorithm, "
        "double-fed induction generator (dfig), "
        "ant colony optimisation, "
        "photo voltaic array, "
        "firefly algorithm, "
        "partial shade"
    