In [None]:
    # Construya y retorne un dataframe de Pandas a partir del archivo
    # 'files/input/clusters_report.txt'. Los requierimientos son los siguientes:

    # - El dataframe tiene la misma estructura que el archivo original.
    # - Los nombres de las columnas deben ser en minusculas, reemplazando los
    #   espacios por guiones bajos.
    # - Las palabras clave deben estar separadas por coma y con un solo
    #   espacio entre palabra y palabra.

In [None]:
# Nota: En este caso, el archivo clusters_report.txt no tiene un separador estándar como coma (,) o 
# tabulación (\t), y además tiene encabezados desorganizados y datos espaciados irregularmente. Por eso, 
# read_csv no funcionará directamente.

In [47]:
import pandas as pd
with open("../files/input/clusters_report.txt", "r", encoding='utf-8') as file:
    lines = file.readlines()
#lines

# contenido = lines[4:]

# contenido = [line.strip() for line in contenido]  # Aplicar .strip() a cada línea. Este no se aplica en listas
# contenido

# Procesar las líneas para eliminar encabezados y líneas separadoras
data_lines = lines[4:]  # Ignorar las primeras 4 líneas (encabezado y separador)

# Lista para almacenar los datos
data = []
current_cluster = None

for line in data_lines:
    if line.strip():  # Ignorar líneas vacías
        parts = line.split()
        
        # Si la línea comienza con un número, es un nuevo clúster
        if parts[0].isdigit():
            if current_cluster:
                data.append(current_cluster)  # Guardar el clúster anterior
            
            # Combinar el porcentaje (posiciones 2 y 3)
            porcentaje = f"{parts[2]} {parts[3]}"
            
            # Inicializar un nuevo clúster
            current_cluster = {
                'cluster': int(parts[0]),
                'cantidad_de_palabras_clave': int(parts[1]),
                'porcentaje_de_palabras_clave': porcentaje,
                'principales_palabras_clave': ' '.join(parts[4:])  # Resto son palabras clave
            }
        else:
            # Continuar palabras clave del clúster actual
            current_cluster['principales_palabras_clave'] += ' ' + ' '.join(parts)

# Agregar el último clúster
if current_cluster:
    data.append(current_cluster)

# Crear un DataFrame
df = pd.DataFrame(data)

# Limpiar nombres de las columnas
df.columns = df.columns.str.lower().str.replace(' ', '_')

# Ajustar formato de las palabras clave
df['principales_palabras_clave'] = (
    df['principales_palabras_clave']
    .str.replace(r'\s+', ' ', regex=True)  # Espacios múltiples a un solo espacio
    .str.replace(', ', ', ').str.strip()  # Espaciado correcto en comas
)

# Mostrar el DataFrame
print(df)



    cluster  cantidad_de_palabras_clave porcentaje_de_palabras_clave  \
0         1                         105                       15,9 %   
1         2                         102                       15,4 %   
2         3                          89                       13,4 %   
3         4                          60                        9,1 %   
4         5                          52                        7,9 %   
5         6                          51                        7,7 %   
6         7                          42                        6,3 %   
7         8                          38                        5,7 %   
8         9                          35                        5,3 %   
9        10                          27                        4,1 %   
10       11                          22                        3,3 %   
11       12                          22                        3,3 %   
12       13                          17                        2

In [49]:
df["principales_palabras_clave"].replace('.','')
df["principales_palabras_clave"]



0     maximum power point tracking, fuzzy-logic base...
1     support vector machine, long short-term memory...
2     smart grid, wind power, reinforcement learning...
3     wind turbine, fault diagnosis, biodiesel, fail...
4     electric vehicle, lithium-ion batteries, state...
5     particle swarm optimization, distribute genera...
6     multi-objective optimization, energy storage, ...
7     genetic algorithm, demand-side management, ene...
8     anfis, global solar irradiance, solar irradian...
9     micro grid, multi-agent systems, distributed e...
10    hydrogen, biochar, biomass, biogas, microbial ...
11    state of charge (soc) estimation, radial basis...
12    pem fuel cell, solid-oxide fuel cell, deep-bel...
Name: principales_palabras_clave, dtype: object

In [50]:
df['principales_palabras_clave'] = (
    df['principales_palabras_clave']
    .str.replace(r'\s+', ' ', regex=True)  # Espacios múltiples a un solo espacio
    .str.replace(', ', ', ').str.strip()  # Espaciado correcto en comas
    .str.replace("." , "")
)