In [5]:
!pip install tqdm
!pip install pandas
!pip install -q -U google-generativeai

Collecting pandas
  Downloading pandas-2.2.2-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Downloading numpy-1.26.4-cp312-cp312-win_amd64.whl.metadata (61 kB)
     ---------------------------------------- 0.0/61.0 kB ? eta -:--:--
     ---------------------------------------- 0.0/61.0 kB ? eta -:--:--
     ------ --------------------------------- 10.2/61.0 kB ? eta -:--:--
     ------ --------------------------------- 10.2/61.0 kB ? eta -:--:--
     ------ --------------------------------- 10.2/61.0 kB ? eta -:--:--
     ------------------- ------------------ 30.7/61.0 kB 163.8 kB/s eta 0:00:01
     ------------------------------- ------ 51.2/61.0 kB 201.8 kB/s eta 0:00:01
     -------------------------------------- 61.0/61.0 kB 217.1 kB/s eta 0:00:00
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2024.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2024.1-py2.py3-none-any.whl.metadata 

In [1]:
import pandas as pd
import re
from tqdm import tqdm

file = 'server'
file_path = file + '.log'
output_file_path = 'primer_filtro_' + file_path
filtered_output_file_path = 'segundo_filtro_' + file_path

def read_and_replace(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    
    # Reemplazar ';' por ':'
    lines = [line.replace(';', ':') for line in lines]
    
    # Eliminar líneas en blanco
    lines = [line for line in lines if line.strip()]
    
    return lines

def label_lines(lines):
    data = []
    line_number = 1

    for line in tqdm(lines, desc="Etiquetando líneas"):
        data.append({'line_number': line_number, 'text': line.strip()})
        line_number += 1
    
    return pd.DataFrame(data)

def add_delimiters(df):
    pattern = re.compile(r'^\d{2}:\d{2}:\d{2},\d{3}')
    processed_lines = []
    current_line = ''
    current_line_number = 0
    
    for index, row in tqdm(df.iterrows(), desc="Añadiendo delimitadores", total=len(df)):
        if pattern.match(row['text']):
            if current_line:
                processed_lines.append({'text': current_line.strip()})
            parts = row['text'].split(' ', 2)
            current_line = f"{row['line_number']};{parts[0]};{parts[1]};{parts[2]};" if len(parts) == 3 else row['text']
        else:
            current_line += f":{row['text']}"
    
    if current_line:
        processed_lines.append({'text': current_line.strip()})
    
    return pd.DataFrame(processed_lines)

def filter_non_info(input_file_path, output_file_path):
    # Leer el archivo procesado
    with open(input_file_path, 'r', encoding='utf-8') as file:
        lines = file.readlines()

    data = []
    for line in tqdm(lines, desc="Filtrando líneas no INFO"):
        parts = line.strip().split(';')
        if len(parts) >= 3 and parts[2].strip() != 'INFO':
            data.append(line.strip())

    # Guardar las líneas filtradas en un nuevo archivo
    with open(output_file_path, 'w', encoding='utf-8') as file:
        for line in data:
            file.write(f"{line}\n")

# Leer y procesar el archivo original
lines = read_and_replace(file_path)

# Etiquetar las líneas
df_labeled = label_lines(lines)

# Añadir delimitadores internos y concatenar detalles
df_processed = add_delimiters(df_labeled)

# Guardar el DataFrame resultante en un nuevo archivo .log con columnas separadas por punto y coma
df_processed.to_csv(output_file_path, index=False, sep=';', header=False, lineterminator='\n')

print('Se imprimió el archivo inicial:', output_file_path)

# Filtrar y guardar las líneas que no son INFO en un nuevo archivo
filter_non_info(output_file_path, filtered_output_file_path)

print('Se imprimió el archivo filtrado sin INFO:', filtered_output_file_path)

#Segunda parte del proceso ***************************

# Definir las rutas de los archivos
input_file_path = 'segundo_filtro_server.log'
grouped_output_file_path = 'tercer_filtro_server.log'
sorted_output_file_path = 'cuarto_filtro_server.csv'

# Definir patrones de categorización
STRICT_PATTERNS = {
    'start_send': re.compile(r'inicia envio en .*'),
    'end_send': re.compile(r'fin envio en .*'),
    'error': re.compile(r'ERROR|Error|error en .*'),
    'warn': re.compile(r'WARN|Warn|warn en .*'),
    # Añadir más patrones específicos según sea necesario
}

LAX_PATTERNS = {
    'start_send': re.compile(r'inicia envio'),
    'end_send': re.compile(r'fin envio'),
    'error': re.compile(r'ERROR|Error|error'),
    'warn': re.compile(r'WARN|Warn|warn'),
    # Añadir más patrones menos específicos según sea necesario
}

# Lista de niveles de prioridad (ordenada por prioridad)
PRIORITY_LEVELS = ['ERROR', 'WARN', 'INFO', 'DEBUG', 'TRACE']

def categorize_message(message, patterns):
    for category, pattern in patterns.items():
        if pattern.search(message):
            return category
    return 'other'

def manual_read_and_process(input_file_path, patterns):
    data = []
    with open(input_file_path, 'r', encoding='utf-8') as file:
        lines = file.readlines()
        for line in tqdm(lines, desc="Leyendo y procesando archivo"):
            parts = line.strip().split(';')
            if len(parts) == 5:
                parts.append(categorize_message(parts[3], patterns))  # Categorizar el mensaje
                data.append(parts)
    
    # Convertir la lista a un DataFrame
    df = pd.DataFrame(data, columns=['line_number', 'time', 'level', 'message', 'details', 'category'])
    return df

def limit_length(text, max_length=30000):
    # Limitar la longitud del texto a max_length caracteres
    return text if len(text) <= max_length else text[:max_length]

def priority_sort_key(level):
    return PRIORITY_LEVELS.index(level) if level in PRIORITY_LEVELS else len(PRIORITY_LEVELS)

def group_and_aggregate(df, grouped_output_file_path, sorted_output_file_path):
    # Concatenar mensaje y detalles, y limitar a 30,000 caracteres
    df['details'] = df.apply(lambda row: row['message'] + ' ' + row['details'], axis=1)
    df['details'] = df['details'].apply(limit_length)
    df['message'] = df['message'].apply(limit_length)

    # Agrupar por categoría y tipo de nivel
    grouped_data = []
    for name, group in tqdm(df.groupby(['category', 'level']), desc="Agrupando datos"):
        count = len(group)
        last_time = group['time'].iloc[-1]
        line_numbers = ':'.join(group['line_number'].astype(str))
        line_numbers = limit_length(line_numbers)  # Limitar longitud de line_numbers
        details = group['details'].iloc[-1]
        message = group['message'].iloc[-1]
        grouped_data.append([name[0], name[1], count, last_time, line_numbers, details, message])

    df_grouped = pd.DataFrame(grouped_data, columns=['category', 'level', 'count', 'last_time', 'line_numbers', 'details', 'message'])

    # Reemplazar comillas vacías en la columna details
    df_grouped['details'] = df_grouped['details'].replace('', 'Sin detalles')

    # Guardar el DataFrame agrupado en un nuevo archivo
    df_grouped.to_csv(grouped_output_file_path, index=False, sep=';', header=True, lineterminator='\n')
    print('Se imprimió el archivo agrupado:', grouped_output_file_path)

    # Ordenar por prioridad (tipo de nivel) y cantidad de repeticiones
    df_sorted = df_grouped.sort_values(by=['level', 'count'], key=lambda x: x.map(priority_sort_key) if x.name == 'level' else -x)
    df_sorted = df_sorted[['count', 'level', 'message', 'line_numbers', 'details']]
    df_sorted.to_csv(sorted_output_file_path, index=False, sep=';', header=True, lineterminator='\n')
    print('Se imprimió el archivo ordenado:', sorted_output_file_path)

# Leer y procesar manualmente el archivo
precision = 1  # Ajustar la precisión según sea necesario
patterns = STRICT_PATTERNS if precision < 1.0 else LAX_PATTERNS

df = manual_read_and_process(input_file_path, patterns)

# Agrupar y agregar
group_and_aggregate(df, grouped_output_file_path, sorted_output_file_path)

Etiquetando líneas: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 497781/497781 [00:00<00:00, 1252088.37it/s]
Añadiendo delimitadores: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 497781/497781 [00:32<00:00, 15319.75it/s]


Se imprimió el archivo inicial: primer_filtro_server.log


Filtrando líneas no INFO: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 146318/146318 [00:00<00:00, 683748.82it/s]


Se imprimió el archivo filtrado sin INFO: segundo_filtro_server.log


Leyendo y procesando archivo: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 26267/26267 [00:00<00:00, 164946.83it/s]
Agrupando datos: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 614.41it/s]

Se imprimió el archivo agrupado: tercer_filtro_server.log
Se imprimió el archivo ordenado: cuarto_filtro_server.csv





In [2]:
import pathlib
import textwrap
import pandas as pd
import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown


def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

genai.configure(api_key='AIzaSyCbQD7hepn5YREpGLmdJ2nPuGsRQ-Wq_bs')

for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

# Crear el objeto GenerativeModel con el modelo 'gemini-1.5-flash'
model = genai.GenerativeModel('gemini-1.5-flash')

# Leer el archivo CSV original y crear un DataFrame
df_original = pd.read_csv('cuarto_filtro_server.csv', delimiter=';')

# Inicializar la variable de porcentaje de avance
avance = 0

# Función para generar respuestas con Gemini y agregarlas al DataFrame
def generar_respuestas(row):
    global avance  # Acceder a la variable global avance
    pregunta = row['details']  # Asumiendo que la columna de preguntas se llama 'Preguntas'
    preguntaModelo = "Texto que corresponde a un mensaje de servidor jboss 6.5 de un sistema transaccional, ayudame con una respuesta corta de que es y como solventar: " + pregunta
    response = model.generate_content(preguntaModelo)
    if response.candidates:
        respuesta_gemini = response.candidates[0].content.parts[0].text
    else:
        respuesta_gemini = "No se encontró respuesta"
    
    # Incrementar el porcentaje de avance
    avance += 1
    
    # Calcular el porcentaje de avance
    porcentaje_avance = (avance / len(df_original)) * 100
    
    print(f"Paso 5: Porcentaje de avance: {porcentaje_avance:.2f}%")
    
    return respuesta_gemini

# Aplicar la función a cada fila del DataFrame para generar las respuestas
df_original['Respuesta Gemini'] = df_original.apply(generar_respuestas, axis=1)

# Guardar el DataFrame con las respuestas en un nuevo archivo CSV
df_original.to_csv('quinto_filtro_server.csv', sep=';', index=False, encoding='utf-8')

print("Proceso completado. Se ha creado el archivo 'quinto_filtro_server4.csv' con respuestas de Gemini.")

  from .autonotebook import tqdm as notebook_tqdm


models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-flash
models/gemini-1.5-flash-001
models/gemini-1.5-flash-latest
models/gemini-1.5-pro
models/gemini-1.5-pro-001
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision
Paso 5: Porcentaje de avance: 10.00%
Paso 5: Porcentaje de avance: 20.00%
Paso 5: Porcentaje de avance: 30.00%
Paso 5: Porcentaje de avance: 40.00%
Paso 5: Porcentaje de avance: 50.00%
Paso 5: Porcentaje de avance: 60.00%
Paso 5: Porcentaje de avance: 70.00%
Paso 5: Porcentaje de avance: 80.00%
Paso 5: Porcentaje de avance: 90.00%
Paso 5: Porcentaje de avance: 100.00%
Proceso completado. Se ha creado el archivo 'quinto_filtro_server4.csv' con respuestas de Gemini.
