## Pré-processamento dos arquivos coletados de métricas

Esse pré-processamento visa gerar um novo arquivo a partir do arquivo original extraído via Prometheus adicionando  novos campos para posterior processamento.
Os novos campos gerados compreendem um hash de identificação da aplicação além de colunas de tempo (hora e minuto).

### Métricas coletadas:
- Consumo de CPU
- Consumo de Memóroa
- Pods encerrados por Estouro de memória (OOMKilled)
- Consumo excessivo de CPU




In [1]:
import pandas as pd
import hashlib
import glob
import os

## Funções gerais        

In [9]:
# Extrai a identificação do sistema a partir do nome do ambiente
def extract_system_name(namespace):
    environment = namespace.split('-')[-1]
    system = namespace.split(f'-{environment}')[0]
    return system

# Cria os diretórios
def create_folder(path):
    try:
       os.makedirs(path)
    except FileExistsError:
       # directory already exists
       pass

def hash(ambiente, pod):
    return hashlib.md5(f'{ambiente}{pod}'.encode('utf-8')).hexdigest()


## Pré-processamento de coletas de consumo de cpu

In [4]:
# Processamento de arquivos de CPU
header_list = ["Sistema", "Ambiente", "Modulo", "Pod", "Uso_CPU"]
path_processados = '/dados/metrics/cpu/processados'
path_projeto = '/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico'
path_metricas = '/dados/metrics/cpu/'
csv_files = glob.glob(path_projeto+path_metricas+ "*.gz")

# Cria diretorios
create_folder(path_projeto+path_metricas)
create_folder(path_projeto+path_processados)

for file in csv_files:
    print(file)
    data = pd.read_csv(file, sep=';', header=None, names=header_list)
    # obtem horario
    filename = file.replace(path_projeto+path_metricas, "")
    hora = int(filename[4:6])
    min = int(filename[6:8])
        
    # acrescenta coluna de horário    
    data['Hora'] = hora
    
    # acrescenta coluna de minuto    
    data['Minuto'] = min
    
    # acrescenta coluna de hash
    data['Hash'] = [hash(x, y) for x, y in zip(data['Ambiente'], data['Pod'])]
    
    # salva arquivo
    data.to_csv(f'{path_projeto}{path_processados}/error_{hora}_{min}.csv', index=False)
    
print('Fim processamento de CPU')



/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/cpu/cpu_00300401112022.csv.gz
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/cpu/cpu_06450801112022.csv.gz
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/cpu/cpu_11000601112022.csv.gz
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/cpu/cpu_01000401112022.csv.gz
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/cpu/cpu_21300431102022.csv.gz
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/cpu/cpu_09150701112022.csv.gz
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/cpu/cpu_13450701112022.csv.gz
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/cpu/cpu_09450801112022.csv.gz
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/cpu/cpu_00450501112022.csv.gz
/home/56740050368/Treinamento/IA-PUC_

## Pré-processamento de coletas de consumo de Memória

In [16]:
# Processamento de dados de memória
header_list = ["Sistema", "Ambiente", "Modulo", "Pod", "Uso_Memoria"]
path_processados = '/dados/metrics/memoria/processados'
path_metricas = '/dados/metrics/memoria/'
csv_files = glob.glob(path_projeto+path_metricas+ "*.gz")

# Cria diretorios
create_folder(path_projeto+path_metricas)
create_folder(path_projeto+path_processados)

for file in csv_files:    
    data = pd.read_csv(file, sep=';', header=None, names=header_list)
    # obtem horario
    filename = file.replace(path_projeto+path_metricas, "")
    print(filename)
    hora = int(filename[7:9])
    min = int(filename[9:11])
        
    # acrescenta coluna de horário    
    data['Hora'] = hora
    data['Minuto'] = min
    # acrescenta coluna de hash
    data['Hash'] = [hash(x, y) for x, y in zip(data['Ambiente'], data['Pod'])]
    print(hora, min)
    
    # salva arquivo
    data.to_csv(f'{path_projeto}{path_processados}/memoria_{hora}_{min}.csv', index=False)
    
print('Fim processsamento de Memoria')


/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/memoria/memory_01000401112022.csv.gz
67 40
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/memoria/memory_05300901112022.csv.gz
67 40
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/memoria/memory_21450431102022.csv.gz
67 40
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/memoria/memory_11150501112022.csv.gz
67 40
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/memoria/memory_05150601112022.csv.gz
67 40
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/memoria/memory_10150501112022.csv.gz
67 40
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/memoria/memory_11450501112022.csv.gz
67 40
/home/56740050368/Treinamento/IA-PUC_Minas/Trabalho_Cientifico/dados/metrics/memoria/memory_05000801112022.csv.gz
67 40
/home/56740050368/Treinamento/IA-PUC_Min

## Pré-processamento das coletas de pods que foram encerrados por erros de memória (OOMKilled)

In [10]:
# Processamento da coleta de pods encerrados por estouro de memória
header_list = ["Sistema", "Ambiente", "Modulo", "Pod", "Error", "Qtd"]
path_processados = '/dados/metrics/error/processados'
path_metricas = '/dados/metrics/error/'
csv_files = glob.glob(path_projeto+path_metricas+ "*.gz")

# Cria diretorios
create_folder(path_projeto+path_metricas)
create_folder(path_projeto+path_processados)

for file in csv_files:    
    data = pd.read_csv(file, sep=';', header=None, names=header_list)
    # obtem horario
    filename = file.replace(path_projeto+path_metricas, "")
    print(filename)   
    
    hora = int(filename[6:8])
    min = int(filename[8:10])   
        
    # acrescenta coluna de horário    
    data['Hora'] = hora
    data['Minuto'] = min
    # acrescenta coluna de hash
    data['Hash'] = [hash(x, y) for x, y in zip(data['Ambiente'], data['Pod'])]
    
    # salva arquivo
    data.to_csv(f'{path_projeto}{path_processados}/error_{hora}_{min}.csv', index=False)
    
print('Fim processsamento de Erros de Memória')

error_05000601112022.csv.gz
error_04450701112022.csv.gz
error_07000601112022.csv.gz
error_22150431102022.csv.gz
error_05150601112022.csv.gz
error_10450501112022.csv.gz
error_13300301112022.csv.gz
error_09301701112022.csv.gz
error_01150501112022.csv.gz
error_07301001112022.csv.gz
error_08301101112022.csv.gz
error_14000501112022.csv.gz
error_02000501112022.csv.gz
error_04300601112022.csv.gz
error_11300301112022.csv.gz
error_12150401112022.csv.gz
error_05300801112022.csv.gz
error_12000401112022.csv.gz
error_03150601112022.csv.gz
error_06300601112022.csv.gz
error_03450601112022.csv.gz
error_21300331102022.csv.gz
error_12300301112022.csv.gz
error_01000401112022.csv.gz
error_07150801112022.csv.gz
error_10301501112022.csv.gz
error_13000501112022.csv.gz
error_12450501112022.csv.gz
error_10150401112022.csv.gz
error_14150301112022.csv.gz
error_22000331102022.csv.gz
error_23150531102022.csv.gz
error_05450601112022.csv.gz
error_13450601112022.csv.gz
error_13150401112022.csv.gz
error_04150401112022

## Pré-processamento das coletas de pods que excederam o consumo de CPU configurado (throttled)

In [11]:
# Processamento da coleta de pods encerrados por estouro de memória
header_list = ["Sistema", "Ambiente", "Modulo", "Pod", "Uso_CPU"]
path_processados = '/dados/metrics/throttled/processados'
path_metricas = '/dados/metrics/throttled/'
csv_files = glob.glob(path_projeto+path_metricas+ "*.gz")

# Cria diretorios
create_folder(path_projeto+path_metricas)
create_folder(path_projeto+path_processados)

for file in csv_files:    
    data = pd.read_csv(file, sep=';', header=None, names=header_list)
    # obtem horario
    filename = file.replace(path_projeto+path_metricas, "")
    print(filename)
    hora = int(filename[14:16])
    min = int(filename[16:18])   
        
    # acrescenta coluna de horário    
    data['Hora'] = hora
    data['Minuto'] = min
    # acrescenta coluna de hash
    data['Hash'] = [hash(x, y) for x, y in zip(data['Ambiente'], data['Pod'])]
    
    # salva arquivo
    data.to_csv(f'{path_projeto}{path_processados}/cpu_throttled_{hora}_{min}.csv', index=False)
    
print('Fim processsamento de CPU Throttled')

cpu_throttled_12450601112022.csv.gz
cpu_throttled_01150601112022.csv.gz
cpu_throttled_14000601112022.csv.gz
cpu_throttled_08152601112022.csv.gz
cpu_throttled_07301101112022.csv.gz
cpu_throttled_14150401112022.csv.gz
cpu_throttled_09302301112022.csv.gz
cpu_throttled_08001401112022.csv.gz
cpu_throttled_09450901112022.csv.gz
cpu_throttled_13300401112022.csv.gz
cpu_throttled_06450801112022.csv.gz
cpu_throttled_12300401112022.csv.gz
cpu_throttled_02450801112022.csv.gz
cpu_throttled_00300401112022.csv.gz
cpu_throttled_03000601112022.csv.gz
cpu_throttled_22150531102022.csv.gz
cpu_throttled_10301701112022.csv.gz
cpu_throttled_03150601112022.csv.gz
cpu_throttled_10150401112022.csv.gz
cpu_throttled_21300431102022.csv.gz
cpu_throttled_03450601112022.csv.gz
cpu_throttled_04300701112022.csv.gz
cpu_throttled_13000401112022.csv.gz
cpu_throttled_05450701112022.csv.gz
cpu_throttled_09150701112022.csv.gz
cpu_throttled_00000501112022.csv.gz
cpu_throttled_11000601112022.csv.gz
cpu_throttled_02150601112022