In [61]:
import pandas as pd
import warnings
import re

warnings.filterwarnings("ignore")

In [62]:
def ingest_data():
    anchos_de_columna = [9, 16, 16, 350]
    column_names = [
        "cluster",
        "cantidad_de_palabras_clave",
        "porcentaje_de_palabras_clave",
        "principales_palabras_clave",
    ]

    archivo_clusters = "clusters_report.txt"

    # Leer el archivo con el formato de ancho fijo
    cluster_df = pd.read_fwf(
        archivo_clusters,
        widths=anchos_de_columna,
        header=None,
        names=column_names,
    )

    # Eliminar las primeras filas innecesarias
    cluster_df = cluster_df.drop([0, 1, 2])

    # Resetear los índices del DataFrame
    cluster_df = cluster_df.reset_index(drop=True)

    # Convertir 'principales_palabras_clave' a tipo str
    cluster_df['principales_palabras_clave'] = cluster_df['principales_palabras_clave'].astype(str)

    # Reemplazar '%' con '', y ',' con '.' en 'porcentaje_de_palabras_clave' y convertirlo a tipo float
    cluster_df['porcentaje_de_palabras_clave'] = cluster_df['porcentaje_de_palabras_clave'].str.replace('%', '').str.replace(',', '.').astype(float)

    # Llenar los valores vacíos en 'cluster', 'cantidad_de_palabras_clave' y 'porcentaje_de_palabras_clave'
    cluster_df['cluster'] = cluster_df['cluster'].fillna(method='pad')
    cluster_df['cantidad_de_palabras_clave'] = cluster_df['cantidad_de_palabras_clave'].fillna(method='pad')
    cluster_df['porcentaje_de_palabras_clave'] = cluster_df['porcentaje_de_palabras_clave'].fillna(method='pad')
    
    def join_words(words):
        return ' '.join(word.strip() for word in words if pd.notna(word))

    # Agrupar y juntar palabras clave
    clusters_report_df = cluster_df.groupby(['cluster', 'cantidad_de_palabras_clave', 'porcentaje_de_palabras_clave'], dropna=False)['principales_palabras_clave'].agg(join_words).reset_index()
    clusters_report_df['cluster'] = clusters_report_df['cluster'].astype(int)
    clusters_report_df = clusters_report_df.sort_values(by='cluster')
    clusters_report_df['principales_palabras_clave'] = clusters_report_df['principales_palabras_clave'].astype(str).str.replace(',, ', ' ').str.replace('   ', ' ').str.replace('.', '').str.replace("  ", " ").str.lower()
    clusters_report_df['principales_palabras_clave'] = clusters_report_df['principales_palabras_clave'].apply(lambda x: re.sub(r'([a-zA-Z]),([a-zA-Z])', r'\1, \2', x))
    clusters_report_df['cantidad_de_palabras_clave'] = clusters_report_df['cantidad_de_palabras_clave'].astype(int)
    # pd.set_option('display.width', None)

    return clusters_report_df

cluster_df = ingest_data()



In [63]:
# print(cluster_df['cluster'].to_list())
# print('\n')
# print(cluster_df['cantidad_de_palabras_clave'].to_list())
# print('\n')
# print(cluster_df['porcentaje_de_palabras_clave'].to_list())
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[0])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[1])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[2])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[3])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[4])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[5])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[6])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[7])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[8])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[9])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[10])
# print('\n')
# print(cluster_df["principales_palabras_clave"].to_list()[11])
# print('\n')
print(cluster_df["principales_palabras_clave"].to_list()[12])



pem fuel cell, solid-oxide fuel cell, deep-belief networks, energy optimisation, particles-size distributions, biomass gasification, exergy, battery management, hydrogen  production,  numeric simulation, system-identification


In [64]:
cluster_df = ingest_data()

In [65]:
cluster_df.dtypes

cluster                           int32
cantidad_de_palabras_clave        int32
porcentaje_de_palabras_clave    float64
principales_palabras_clave       object
dtype: object

In [66]:
cluster_df

Unnamed: 0,cluster,cantidad_de_palabras_clave,porcentaje_de_palabras_clave,principales_palabras_clave
0,1,105,15.9,"maximum power point tracking, fuzzy-logic base..."
5,2,102,15.4,"support vector machine, long short-term memory..."
6,3,89,13.4,"smart grid, wind power, reinforcement learning..."
7,4,60,9.1,"wind turbine, fault diagnosis, biodiesel, fail..."
8,5,52,7.9,"electric vehicle, lithium-ion batteries, state..."
9,6,51,7.7,"particle swarm optimization, distribute genera..."
10,7,42,6.3,"multi-objective optimization, energy storage, ..."
11,8,38,5.7,"genetic algorithm, demand-side management, ene..."
12,9,35,5.3,"anfis, global solar irradiance, solar irradian..."
1,10,27,4.1,"micro grid, multi-agent systems, distributed e..."


In [67]:
# cluster_df['principales_palabras_clave']

# serie.to_csv('clusters_report.csv', index=False, header=False)

print(cluster_df['principales_palabras_clave'].astype(str).map(len))
# print(serie.astype(str)[0])

0     274
5     281
6     199
7     251
8     246
9     278
10    277
11    239
12    237
1     244
2     138
3     333
4     225
Name: principales_palabras_clave, dtype: int64
