In [1]:
import pandas as pd
import random
from datetime import timedelta, date
from openpyxl.styles import Font
from openpyxl.utils import get_column_letter

# Gera o intervalo de datas para uma sprint de duração fixa (default = 14 dias)
def gerar_datas_sprint(inicio, duracao_dias=14):
    data_inicio = inicio
    data_fim = inicio + timedelta(days=duracao_dias)
    return data_inicio, data_fim

# Gera dados sintéticos e realistas para uma sprint fictícia
def gerar_sprint(sprint_num, data_inicio):
    data_ini, data_fim = gerar_datas_sprint(data_inicio)
    
    qtd_membros = random.randint(3, 7)
    story_points_prev = random.randint(60, 140)
    story_points_entregue = int(story_points_prev * random.uniform(0.7, 1.0))
    
    cartoes_prev = random.randint(20, 50)
    cartoes_entregue = int(cartoes_prev * random.uniform(0.7, 1.0))
    
    tipo_dominio = random.choice(["Web", "Mobile", "API", "Dados"])
    complexidade = round(random.uniform(1.5, 4.5), 1)
    percentual_bugs = round(random.uniform(0.05, 0.25), 2)
    percentual_retrabalho = round(random.uniform(0.05, 0.2), 2)
    velocidade_passada = round(random.uniform(30, 70), 2)
    produtividade = round(story_points_prev / qtd_membros, 2)

    return {
        "sprint_id": f"Sprint_{sprint_num:02}",
        "data_inicio": data_ini,
        "data_fim": data_fim,
        "qtd_membros": qtd_membros,
        "duracao_dias": (data_fim - data_ini).days,
        "cartoes_previstos": cartoes_prev,
        "cartoes_entregues": cartoes_entregue,
        "story_points_previstos": story_points_prev,
        "story_points_entregues": story_points_entregue,
        "tipo_dominio": tipo_dominio,
        "complexidade_media": complexidade,
        "percentual_bugs": percentual_bugs,
        "percentual_retrabalho": percentual_retrabalho,
        "velocidade_passada": velocidade_passada,
        "produtividade_estimada": produtividade
    }

# Função principal que gera N sprints e salva os dados em .csv e .xlsx
def gerar_dataset_sprints(qtd_sprints=10):
    dados = []
    data_base = date(2025, 1, 1)

    # Gera múltiplas sprints com datas sequenciais
    for i in range(qtd_sprints):
        sprint = gerar_sprint(i+1, data_base)
        dados.append(sprint)
        data_base += timedelta(days=14)

    # Cria o DataFrame com os dados
    df = pd.DataFrame(dados)

    # Salva em CSV (sem formatação)
    df.to_csv("sprints_simuladas.csv", index=False)

    # Salva em Excel com formatação de cabeçalhos
    with pd.ExcelWriter("sprints_formatadas.xlsx", engine="openpyxl") as writer:
        df.to_excel(writer, sheet_name="Sprints", index=False)
        sheet = writer.sheets["Sprints"]

        # Aplica negrito no cabeçalho
        for col_num, column_title in enumerate(df.columns, 1):
            cell = sheet[f"{get_column_letter(col_num)}1"]
            cell.font = Font(bold=True)

    print(f"✅ Arquivos gerados com sucesso:")
    print(f"   - sprints_simuladas.csv (sem formatação)")
    print(f"   - sprints_formatadas.xlsx (com formatação)")

# Executa a função principal se for chamado diretamente
if __name__ == "__main__":
    gerar_dataset_sprints(qtd_sprints=5)


✅ Arquivos gerados com sucesso:
   - sprints_simuladas.csv (sem formatação)
   - sprints_formatadas.xlsx (com formatação)


In [2]:
import pandas as pd

#Lê o arquivo CSV gerado anteriormente
df = pd.read_csv("sprints_simuladas.csv")

# Exibe informações gerais do DataFrame
print("📌 Informações da Tabela:")
print(df.info())

# Exibe estatísticas descritivas das colunas numéricas
print("\n📈 Estatísticas descritivas:")
print(df.describe())


📌 Informações da Tabela:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   sprint_id               5 non-null      object 
 1   data_inicio             5 non-null      object 
 2   data_fim                5 non-null      object 
 3   qtd_membros             5 non-null      int64  
 4   duracao_dias            5 non-null      int64  
 5   cartoes_previstos       5 non-null      int64  
 6   cartoes_entregues       5 non-null      int64  
 7   story_points_previstos  5 non-null      int64  
 8   story_points_entregues  5 non-null      int64  
 9   tipo_dominio            5 non-null      object 
 10  complexidade_media      5 non-null      float64
 11  percentual_bugs         5 non-null      float64
 12  percentual_retrabalho   5 non-null      float64
 13  velocidade_passada      5 non-null      float64
 14  produtividade_estimad