# **Gestão Preditiva de Infraestrutura Digital**

---

**Discentes**:
- Ariane Santos De Queiroz
- Fábio Luiz Souza Alves
- Gabriel Vilela Firmo
- Isabela Maria Melle Baptista
- Joao Vitor Souza Germano
- Murilo Couto de Oliveira
- Vitória Karoline De L. G. Silva

---

## Resumo da Atividade:

> Aplicação de modelos preditivos para gestão preditiva de datacenters de uma empresa de tecnologia. O trabalho foca na previsão e mitigação de sobrecargas nos sistemas durante eventos críticos e condições climáticas adversas, com o objetivo de otimizar o desempenho operacional e garantir a continuidade dos serviços.

## Universidade de São Paulo
- Instituto de Ciências Matemáticas e de Computação – ICMC
- Disciplina: MAI 5003 – Probabilidade e Estatística
- Semestre: 2º Semestre de 2025
- Monitor: Paulo Henrique Brasil Ribeiro
- Docente: Prof. Dr. Francisco Louzada Neto

---

## Descrição Geral

> Esta tarefa aplica análise de dados e modelagem preditiva de infraestrutura tecnológica de um datacenter, com foco na **predição do número de requisições** durante o aumento de demanda ocasionado por eventos extremos.

> Os dados simulados representam o número de requisições, incluindo variáveis como requisições por hora, tráfego de rede, número de usuários ativos, uso de CPU e RAM, entre outros.

---

## Objetivos da tarefa e fluxo da solução proposta

- Implementar modelo preditivo para número de requisições, adaptado ao contexto de **infraestrutura digital crítica**:
  1. **Pré-processamento, limpeza e análise de dados**: captura dados temporais incluindo requisições, consumo de energia, temperatura ambiente e etc.
  2. **Engenharia de atributos**: cálculo e geração de novos atributos para gerar insights e interpretar os dados do problema.
  3. **Divisão da base de dados em conjuntos de treino/tese**: divisão em conjuntos de treino/validação e teste respeitando a ordem temporal com o objetivo de avaliar as métricas regressivas.
  3. **Modelagem**: avaliação das métricas para diversos modelos preditivoscom validação cruzada.  
  4. **Desempenho dos modelos no conjunto de teste**: avalia desempenho dos modelos no conjunto de teste tal como o impacto do horizonte preditivo nas métricas de regressão.

---

# **Limpeza da base de dados**

Nesta primeira etapa do projeto, vamos realizar a leitura do conjunto de dados e executar a fase de pré-processamento e limpeza.

As análises iniciais incluem:

- verificar tipagem dos dados
- verificar a existência de valores ausentes
- remover valores ausentes, duplicados ou inconsistentes

## Características consideradas na limpeza dos dados

- Tipo do dados
- Percentual de valores ausentes
- Quantidade de valores únicos
- Percentual de valores únicos

## Metadados

Descrição resumida

> Base de dados de um datacenter de uma empresa de tecnologia com 720 linhas e 12 colunas

- timestamp (datetime64[ns]): Ano, mês e dia do evento
- hora_dia (int64): Hora do evento
- dia_semana (int64): Dia da semana
- reqs (int64): Número de requisições via app
- trafego_MBps (int64): Quantidade de dados em tráfego (MBps)
- usuarios_ativos (int64): Quantidade de usuários ativos
- temp_ambiente_C (float64): Temperatura ambiente em graus Celsius
- uso_cpu_% (float64): Percentual de uso de CPU
- uso_ram_% (float64): Percentual de uso de memória RAM
- demanda_energia_KW (float64): Demanda energética estimada
- pressao_resfriamento_bar (float64): Pressão de resfriamento (bar)
- consumo_agua_m3 (float64): Consumo de água (m3)

## Importando pacotes necessários e carregando funções úteis

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import missingno as msno
import seaborn as sns
from scipy.stats import skew, kurtosis

def resume_df(df):

  df_aux = pd.DataFrame(index=df.columns)
  df_aux["Tipo"] = df.dtypes
  df_aux["Valores Ausentes"] = df.isna().sum()
  df_aux["Valores Ausentes [%]"] = round(100*df.isna().sum()/df.shape[0],2)
  df_aux["Valores Únicos"] = df.nunique()
  df_aux["Valores Únicos [%]"] = round(100*df_aux["Valores Únicos"]/df.shape[0],2)
  print(f'Número de linhas duplicadas encontradas na base de dados: {df.duplicated().sum()}')
  
  return df_aux

def estatisticas_df(df):
  
  df_aux = pd.DataFrame(index=df.columns)
  df_aux["Mínimo"] = df.apply(np.nanmin, axis=0)
  df_aux["Máximo"] = df.apply(np.nanmax, axis=0)
  df_aux["Mediana"] = df.apply(np.nanmedian, axis=0)
  df_aux["Média"] = df.apply(np.nanmean, axis=0)
  df_aux["Desvio Padrão"] = df.apply(np.nanstd, axis=0)
  df_aux["Obliquidade"] = df.apply(lambda x: skew(x, nan_policy='omit'), axis=0)
  df_aux["Curtose"] = df.apply(lambda x: kurtosis(x, nan_policy='omit'), axis=0)
  df_aux["Número Outliers"] = df.apply(existem_outliers, axis=0)

  return df_aux

def existem_outliers(s) -> int:

    s = s.dropna()
    q1 = np.quantile(s,.25)
    q3 = np.quantile(s,.75)
    iiq = q3 - q1
    ls = q3 + 1.5*iiq
    li = q1 - 1.5*iiq

    return len(s[(s>ls)|(s<li)])

ModuleNotFoundError: No module named 'numpy'