### LIBRARIES

# Analytics - Product Quality

#### Date: 2024/01

#### SUMMARY:

- This notebook represents the project quality analysis of the date exposed right above. 

### TEAM:

##### Semester: 2024/01
##### Professor: Hilmer Neri

##### Members:

EPS:

- Davi Matheus da Rocha de Oliveira
- Natanael Fernandes Coelho Filho
- João Victor Max Bisinotti de Oliveira
- Paulo Henrique Costa Gontijo

MDS:

- Pedro Fonseca Cruz
- Marco Marques de Castro
- Natan da Cruz Almeida
- Paulo Henrique Lamounier Dantas
- Kauã Seichi Gomes de Souza
- Jonas Carlos do Nascimento
- João Vitor Lopes Ribeiro


In [4]:
# Deal with data
import pandas as pd
import json
from glob import glob

# Deal with visualization
import matplotlib.pyplot as plt

# Deal with time
import datetime
import requests

import os
import git # Import the gitpython library

# Clone a repository
repo_url = 'https://github.com/fga-eps-mds/2024.1-CALCULUS-DOC'  # Replace with your repository URL
clone_dir = './kaggle/working/CALCULUS'  # Directory to clone the repository into

if not os.path.exists(clone_dir):
    print(f"Cloning repository from {repo_url} into {clone_dir}...")
    git.Repo.clone_from(repo_url, clone_dir)
    print("Repository cloned successfully.")
else:
    print(f"Directory {clone_dir} already exists. Skipping clone.")

# Set the cloned directory as the working directory
os.chdir(clone_dir)
print(f"Current working directory: {os.getcwd()}")

# List all files in the cloned directory
for dirname, _, filenames in os.walk('.'):  # '.' now points to clone_dir
    for filename in filenames:
        print(os.path.join(dirname, filename))

Cloning repository from https://github.com/fga-eps-mds/2024.1-CALCULUS-DOC into ./kaggle/working/CALCULUS...
Repository cloned successfully.
Current working directory: /home/ntl/workspace/facu/eps/2024.1-CALCULUS-DOC/Analytics/kaggle/working/CALCULUS/kaggle/working/CALCULUS
./.gitignore
./LICENSE
./README.md
./mkdocs.yml
./requirements.txt
./.git/description
./.git/packed-refs
./.git/HEAD
./.git/config
./.git/index
./.git/hooks/applypatch-msg.sample
./.git/hooks/commit-msg.sample
./.git/hooks/post-update.sample
./.git/hooks/pre-applypatch.sample
./.git/hooks/pre-commit.sample
./.git/hooks/pre-merge-commit.sample
./.git/hooks/pre-push.sample
./.git/hooks/pre-receive.sample
./.git/hooks/push-to-checkout.sample
./.git/hooks/sendemail-validate.sample
./.git/hooks/update.sample
./.git/hooks/fsmonitor-watchman.sample
./.git/hooks/pre-rebase.sample
./.git/hooks/prepare-commit-msg.sample
./.git/info/exclude
./.git/objects/pack/pack-a891eb86c1be424b05637f9322c33bedd0c6d8d5.pack
./.git/objects/p

In [None]:
owner = 'fga-eps-mds'
repos = ['2024.1-CALCULUS-Frontend', '2024.1-CALCULUS-UserService', '2024.1-CALCULUS-StudioMaker']

data = []

for repo in repos:
    url = f'https://api.github.com/repos/{owner}/{repo}/actions/runs'
    
    response = requests.get(url)
    
    if response.status_code == 200:
        data_ = response.json()
        data.extend(data_.get('workflow_runs', []))
    else:
        print(f"Erro ao acessar a API do GitHub para o repositório {repo}: {response.status_code}")

## Github API

A API do GitHub utiliza principalmente o protocolo HTTP, onde as operações são realizadas através de URLs e métodos HTTP, como GET, POST, PUT e DELETE. Os dados são geralmente retornados em formato JSON, tornando-o fácil de processar e interpretar.

In [None]:
data = glob('./analytics-raw-data/GitHub_API-fga-eps-mds-*.json')
# print(data)

#### Unmarshall json

In [None]:
def unmarshall(json_path: str) -> dict:
    with open(json_path) as json_file:
        json_obj = json.load(json_file)
    return json_obj

### Cálculo dos dados

- Carrega dados dos arquivo JSON e armazena-os na variável data.
- Processa os dados do JSON para calcular e obter informações relevantes sobre os tempos de feedback de cada execução de workflow, separando-os em listas de feedback_times, authors_feedback_times, e ci_feedback_times.
- Calcula o tempo médio de feedback (ci_feedback_time) considerando todas as execuções de workflow.
- Calcula o tempo médio de feedback de cada autor e armazena essas informações em authors_avg_feedback_times.
- Processa novamente os dados do JSON para contar o número de execuções bem-sucedidas (success_count) e falhas (failure_count) dos workflows.

In [None]:
tabela_total = pd.DataFrame()

# Processar os dados do JSON e obter as informações relevantes
success_count = 0
failure_count = 0

for json_path in data:
    dados = unmarshall(json_path)
    # Create a list to store the data for the table
    table_data = []
    # Processar os dados do JSON e obter as informações relevantes
    for run in dados["workflow_runs"]:
        updated_at = datetime.datetime.strptime(run["updated_at"], "%Y-%m-%dT%H:%M:%SZ")
        created_at = datetime.datetime.strptime(run["created_at"], "%Y-%m-%dT%H:%M:%SZ")
        feedback_time = (updated_at - created_at).total_seconds()
        
        # informações relevantes
        workflow_id = run["id"]
        conclusion = run["conclusion"]
        author = run["actor"]["login"]
        
        # Adiciona os dados na tabela
        table_data.append({
            "Workflow_run ID": workflow_id,
            "Conclusion": conclusion,
            "Author": author,
            "Created at": created_at,
            "Updated at": updated_at,
            "Feedback Time": feedback_time
        })
        
        
    # Cria um dataframe com o pandas
    df = pd.DataFrame(table_data)

    
    # table_data_global.append(df)
    
    # Processar os dados do JSON e obter as informações relevantes
    feedback_times = []
    authors_feedback_times = {}
    ci_feedback_times = []

    for run in df.index:
        updated_at = df["Updated at"][run]
        created_at = df["Created at"][run]
        feedback_time = (updated_at - created_at).total_seconds()
        feedback_times.append(feedback_time)
        
    # Calcular o CI FeedBack Time
    ci_feedback_time = sum(feedback_times) / len(feedback_times)
    df["Ci Feedback Time"] = ci_feedback_time
    
    # Tabela com todas as linhas
    tabela_total = pd.concat([tabela_total, df])
    # print('Tabela por dia')
    # display(df)

    for run in dados["workflow_runs"]:
        conclusion = run["conclusion"]
        if conclusion == "success":
            success_count += 1
        elif conclusion == "failure":
            failure_count += 1
                
print('Tabela com todas as linhas')
display(tabela_total)



# Gerar gráficos

- Gráfico de linhas: Mostra o "CI FeedBack Time" (tempo de feedback do CI) em relação à "Data de Atualização" das execuções de workflow.
- Gráfico de barras simples: Exibe o "Tempo Médio de Feedback do CI", representando o desempenho médio geral do CI.
- Gráfico de pizza: Mostra a "Quantidade de Workflows com Sucesso e Falha" em relação ao total de workflows executados, indicando a proporção de workflows que tiveram sucesso e falha.

In [None]:
# Gerar gráfico com o CI FeedBack Time por data de atualização

temp = tabela_total[['Created at', 'Ci Feedback Time']]
dates = temp.groupby(['Created at']).mean().reset_index()  # Calcula a média dos valores por data
dates['Created at'] = pd.to_datetime(dates['Created at']) 
print(dates)


# dates = [datetime.datetime.strptime(run["updated_at"], "%Y-%m-%dT%H:%M:%SZ") for run in data["workflow_runs"]]
plt.figure(figsize=(20, 10))
plt.plot(range(len(dates)), dates['Ci Feedback Time'], marker='o', color='b', label='Feedback Time')
plt.xlabel("Created at")
plt.ylabel("CI FeedBack Time")
plt.title("CI FeedBack Time por Data de Criação")
plt.xticks(range(len(dates)), dates['Created at'].dt.strftime('%Y-%m-%d'), rotation=45)
plt.grid(True)
plt.legend()
plt.tight_layout()  # Ajusta a disposição dos elementos para evitar sobreposições
plt.show()

In [None]:
plt.figure(figsize=(20, 10))
bars =  plt.bar(range(len(dates)), dates['Ci Feedback Time'], color='salmon', label='Feedback Time')
plt.xlabel("Created at")
plt.ylabel("CI FeedBack Time")
plt.title("CI FeedBack Time por Data de Criação")
plt.xticks(range(len(dates)), dates['Created at'].dt.strftime('%Y-%m-%d'), rotation=45)  # Exibe as datas formatadas no eixo X
plt.legend()
# Adiciona as labels em cada barra
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width() / 2, height, str(height), ha='center', va='bottom')

plt.tight_layout()  # Ajusta a disposição dos elementos para evitar sobreposições
plt.show()

# # Gerar gráfico com o tempo médio do CI
# plt.figure(figsize=(20, 10))
# plt.bar(["CI"], [ci_feedback_time], color='salmon')
# plt.xlabel("CI")
# plt.ylabel("Tempo Médio de Feedback")
# plt.title("Tempo Médio de Feedback do CI")
# plt.text(0, ci_feedback_time, f'{round(ci_feedback_time, 2)} segundos', ha='center', va='bottom', fontweight='bold')
# plt.tight_layout()
# plt.show()

In [None]:
# Gerar gráfico com a quantidade de workflows com sucesso e falha
labels = ["Success", "Failure"]
sizes = [success_count, failure_count]
plt.figure(figsize=(20, 10))
colors = ['lightgreen', 'crimson']
plt.pie(sizes, labels=labels, autopct='%1.1f%%', colors=colors)
plt.title("Quantidade de Workflows_runs com Sucesso e Falha")
plt.legend(labels, loc='best')
plt.tight_layout()
plt.show()