# Importações


In [1]:
import urllib
from itertools import product
from os import getenv
from sqlalchemy import create_engine
from dotenv import load_dotenv

import numpy as np
import pandas as pd
from datetime import datetime, timedelta, time
import plotly.graph_objects as go
import plotly.express as px
from fuzzywuzzy import process
from enum import Enum

In [2]:
class BSColorsEnum(Enum):
    DANGER_COLOR = "#dc3545"
    WARNING_COLOR = "#ffc107"
    SUCCESS_COLOR = "#198754"
    GREY_500_COLOR = "#adb5bd"
    GREY_600_COLOR = "#6c757d"
    GREY_700_COLOR = "#495057"
    GREY_800_COLOR = "#343a40"
    GREY_900_COLOR = "#212529"
    PRIMARY_COLOR = "#0d6efd"
    SECONDARY_COLOR = "#6c757d"
    INFO_COLOR = "#0dcaf0"
    GRAY_COLOR = "#adb5bd"
    TEAL_COLOR = "#20c997"
    ORANGE_COLOR = "#fd7e14"
    INDIGO_COLOR = "#6610f2"
    PINK_COLOR = "#d63384"
    PURPLE_COLOR = "#6f42c1"
    GREY_400_COLOR = "#ced4da"
    SPACE_CADET_COLOR = "#282f44"
    BLUE_DELFT_COLOR = "#0d6efd"

# Conexão com o banco de dados


In [3]:
# database/connection.py

# cSpell: disable=invalid-name
load_dotenv()


class Connection:
    """
    Class Connection
    """

    def __init__(self):
        """
        Constructor

        Args:
            user (str): user
            password (str): password
            database (str): database
            driver (str): driver
            server (str): server

        Usage:
            >>> from connection import Connection
            >>> connection = Connection()
            >>> connection.get_connection()
        """
        self.__user = "bruno.thomaz"
        self.__password = ">gn68U@X@4o8"
        self.__database = "AUTOMACAO"
        self.__driver = "{ODBC Driver 17 for SQL Server}"
        self.__server = "srv-sqlserver"

    def get_connection_automacao(self):
        """
        Get connection

        Returns:
            object: connection

        Usage:
            >>> from connection import Connection
            >>> connection = Connection()
            >>> connection.get_connection()
        """
        try:
            params = urllib.parse.quote_plus(
                f"DRIVER={self.__driver};"
                f"SERVER={self.__server};"
                f"DATABASE={self.__database};"
                f"UID={self.__user};"
                f"PWD={self.__password};"
            )
            # pylint: disable=consider-using-f-string
            conexao_automacao = create_engine("mssql+pyodbc:///?odbc_connect=%s" % params)
            return conexao_automacao
        # pylint: disable=broad-except
        except Exception as error:
            print(f"Error: {error}")
            return None

# Leitura do banco de dados


In [4]:
# database/db_read.py


# cSpell: disable=invalid-name
class Read(Connection):
    """
    Class Read
    Read data from the database and return a pandas dataframe
    Create query to be executed in the database
    """

    # pylint: disable=useless-super-delegation
    def __init__(self):
        """
        Constructor
        """
        super().__init__()

    def get_automacao_data(self, query: str) -> pd.DataFrame:
        """
        Get data from database AUTOMACAO and return a pandas dataframe.

        Parameters
        ----------
        query : str
            Query to be executed in the database

        Returns
        -------
        pandas dataframe
            Dataframe with the query result
        """
        try:
            connection = self.get_connection_automacao()
            data = pd.read_sql(query, connection)
            return data
        # pylint: disable=broad-except
        except Exception as error:
            print(f"Error: {error}")
            return None

    def create_automacao_query(self, table: str, where: str = None, orderby: str = None) -> str:
        """
        Create query to be executed in the database AUTOMACAO.

        Parameters
        ----------
        table : str
            Table name
        where : str
            Where clause (optional)
        orderby : str
            Order by clause (optional)

        Returns
        -------
        str
            Query to be executed in the database
        """
        query = f"SELECT * FROM AUTOMACAO.dbo.{table}"

        if where:
            query += f" WHERE {where}"

        if orderby:
            query += f" ORDER BY {orderby}"

        return query

# Query para o banco de dados


In [5]:
# // database/get_data.py
# cSpell: words automacao, ocorrencia
class GetData:
    """
    Essa classe é responsável por realizar a leitura dos dados do banco de dados.
    É utilizada para fazer a leitura em segundo plano, sem que o usuário perceba.
    """

    def __init__(self):
        self.db_read = Read()

    def get_data(self) -> tuple:
        """
        Realiza a leitura dos dados do banco de dados.
        Retorna na ordem: df_occ, df_info, df_cadastro
        """

        # Dia de hoje
        now = pd.to_datetime("today")

        # Encontrando primeiro dia do mês atual
        first_day = now.replace(day=1)

        # Mantendo apenas a data
        first_day = first_day.strftime("%Y-%m-%d")

        # Query para leitura dos dados de ocorrência
        query_occ = self.db_read.create_automacao_query(
            table="maquina_ocorrencia",
            where=f"data_registro >= '{first_day}'",
        )

        query_info = (
            "SELECT"
            " t1.maquina_id,"
            " (SELECT TOP 1 t2.linha FROM AUTOMACAO.dbo.maquina_cadastro t2"
            " WHERE t2.maquina_id = t1.maquina_id AND t2.data_registro <= t1.data_registro"
            " ORDER BY t2.data_registro DESC, t2.hora_registro DESC) as linha,"
            " (SELECT TOP 1 t2.fabrica FROM AUTOMACAO.dbo.maquina_cadastro t2"
            " WHERE t2.maquina_id = t1.maquina_id AND t2.data_registro <= t1.data_registro"
            " ORDER BY t2.data_registro DESC, t2.hora_registro DESC) as fabrica,"
            " t1.status,"
            " t1.turno,"
            " t1.contagem_total_ciclos,"
            " t1.contagem_total_produzido,"
            " t1.data_registro,"
            " t1.hora_registro"
            " FROM "
            " AUTOMACAO.dbo.maquina_info t1"
            f" WHERE data_registro >= '{first_day}'"
            " ORDER BY t1.data_registro DESC, t1.hora_registro DESC"
        )

        query_production = (
            "WITH aux AS ("
            " SELECT"
            " t1.maquina_id,"
            " t1.turno,"
            " t1.contagem_total_ciclos,"
            " t1.contagem_total_produzido,"
            " (SELECT TOP 1 t2.linha FROM AUTOMACAO.dbo.maquina_cadastro t2"
            " WHERE t2.maquina_id = t1.maquina_id AND"
            " DATEADD(minute, -1, CAST(t2.data_registro AS DATETIME) +"
            " CAST(t2.hora_registro AS DATETIME)) <="
            " CAST(t1.data_registro AS DATETIME) + CAST(t1.hora_registro AS DATETIME)"
            " ORDER BY t2.data_registro DESC, t2.hora_registro desc) as linha,"
            " CASE"
            " WHEN CAST(t1.hora_registro AS TIME) <= '00:01'"
            " THEN DATEADD(day, -1, CAST(t1.data_registro AS DATETIME))"
            " ELSE CAST(t1.data_registro AS DATETIME)"
            " END as data_registro_aux,"
            " CAST(t1.hora_registro AS TIME) as hora_registro"
            " FROM"
            " AUTOMACAO.dbo.maquina_info t1"
            " ), aux2 AS ("
            " SELECT *,"
            " ROW_NUMBER() OVER (PARTITION BY maquina_id, turno, CAST(data_registro_aux AS DATE)"
            " ORDER BY ABS(DATEDIFF(minute, hora_registro,"
            " CASE turno WHEN 'NOT' THEN '07:59:59'"
            " WHEN 'MAT' THEN '15:59:59'"
            " WHEN 'VES' THEN '23:59:59' END))) as rn"
            " FROM aux"
            " )"
            " SELECT"
            " maquina_id,"
            " linha,"
            " turno,"
            " contagem_total_ciclos as total_ciclos,"
            " contagem_total_produzido as total_produzido,"
            " CAST(data_registro_aux AS DATE) as data_registro,"
            " hora_registro"
            " FROM"
            " aux2"
            f" WHERE rn = 1 AND data_registro_aux >= '{first_day}'  "
            " ORDER BY data_registro DESC, maquina_id, turno"
        )

        print("========== Baixando dados do DB ==========")

        # Leitura dos dados
        df_occ = self.db_read.get_automacao_data(query_occ)
        df_info = self.db_read.get_automacao_data(query_info)
        df_info_production = self.db_read.get_automacao_data(query_production)

        # Verificando se os dados foram lidos corretamente
        if df_occ.empty or df_info.empty or df_info_production.empty:
            print("====== Erro na leitura dos dados ======")
            return None, None, None

        print("Ok...")

        return df_occ, df_info, df_info_production


get_data = GetData()
df_occ, df_info, df_info_production = get_data.get_data()

Ok...


# Testes de saída do banco de dados


In [36]:
df_occ

Unnamed: 0,recno,maquina_id,motivo_id,problema,solucao,data_registro,hora_registro,usuario_id
0,3373,TMF005,03,,,2024-02-01,02:58:31,000441
1,3374,TMF002,03,,,2024-02-01,02:58:41,000441
2,3375,TMF015,03,,,2024-02-01,02:58:51,000441
3,3376,TMF011,03,,,2024-02-01,02:59:00,000441
4,3377,TMF014,03,,,2024-02-01,02:59:11,000441
...,...,...,...,...,...,...,...,...
513,3886,TMF004,16,,,2024-02-23,16:01:04,000939
514,3887,TMF009,06,,,2024-02-23,17:51:22,000774
515,3888,TMF007,06,,,2024-02-23,17:51:37,000774
516,3889,TMF012,06,,,2024-02-23,17:51:52,000774


In [37]:
df_info

Unnamed: 0,maquina_id,linha,fabrica,status,turno,contagem_total_ciclos,contagem_total_produzido,data_registro,hora_registro
0,TMF009,14,2,false,MAT,0.0,0.0,2024-02-24,11:08:38.226666
1,TMF007,13,2,false,MAT,0.0,0.0,2024-02-24,11:08:37.226666
2,TMF012,12,2,false,MAT,0.0,0.0,2024-02-24,11:08:36.223333
3,TMF013,11,2,false,MAT,0.0,0.0,2024-02-24,11:08:35.226666
4,TMF008,10,2,false,MAT,0.0,0.0,2024-02-24,11:08:34.223333
...,...,...,...,...,...,...,...,...,...
215083,TMF014,5,1,true,NOT,10.0,8.0,2024-02-01,00:01:34.156666
215084,TMF011,4,1,false,NOT,0.0,0.0,2024-02-01,00:01:33.156666
215085,TMF015,3,1,true,NOT,12.0,12.0,2024-02-01,00:01:32.153333
215086,TMF002,2,1,false,NOT,0.0,0.0,2024-02-01,00:01:31.153333


In [38]:
df_info_production

Unnamed: 0,maquina_id,linha,turno,total_ciclos,total_produzido,data_registro,hora_registro
0,TMF001,6,NOT,0.0,0.0,2024-02-24,06:51:00.383333
1,TMF002,2,NOT,0.0,0.0,2024-02-24,06:50:56.376666
2,TMF003,5,NOT,0.0,0.0,2024-02-24,06:50:59.383333
3,TMF004,9,NOT,0.0,0.0,2024-02-24,06:51:03.386666
4,TMF005,1,NOT,0.0,0.0,2024-02-24,06:50:55.376666
...,...,...,...,...,...,...,...
910,TMF014,5,NOT,8524.0,8358.0,2024-02-01,07:59:35.586666
911,TMF014,5,VES,102.0,2.0,2024-02-01,23:59:38.473333
912,TMF015,3,MAT,6482.0,6438.0,2024-02-01,15:59:35.026666
913,TMF015,3,NOT,8934.0,8792.0,2024-02-01,07:59:33.586666


# Limpeza de dados e análise exploratória


In [8]:
# service/clean_data.py


# cSpell: disable=invalid-name
class CleanData:
    def maq_info(self, info: pd.DataFrame) -> pd.DataFrame:
        """
        Processa as informações de uma máquina e retorna um DataFrame com os dados ajustados.

        Args:
            info (pd.DataFrame): DataFrame contendo as informações da máquina.

        Returns:
            pd.DataFrame: DataFrame com os dados ajustados da máquina.
        """

        # Ordenar dataframe
        df_info = info.sort_values(by=["maquina_id", "data_registro", "hora_registro", "turno"])

        # Criar coluna com data e hora unidos
        df_info["data_hora_registro"] = (
            df_info["data_registro"].astype(str)
            + " "
            + df_info["hora_registro"].astype(str).str.split(".").str[0]
        )

        # Ajustar primeira entrada se for VES
        mask = (df_info["turno"] == "VES") & (
            df_info["maquina_id"] != df_info["maquina_id"].shift()
        )
        df_info["turno"] = np.where(mask, "NOT", df_info["turno"])

        # Ajustar data_hora para pd.datetime
        df_info["data_hora_registro"] = pd.to_datetime(df_info["data_hora_registro"])

        # Ajustar horário se turno for VES - ajusta para dia anterior e horário 23:59:59
        mask = (
            (df_info["turno"] == "VES")
            & (df_info["data_hora_registro"] != df_info["data_hora_registro"].shift())
            & (df_info["data_hora_registro"].dt.time > time(0, 0, 0))
            & (df_info["data_hora_registro"].dt.time < time(0, 5, 0))
        )
        df_info["data_hora_registro"] = np.where(
            mask,
            (df_info["data_hora_registro"] - pd.Timedelta(days=1)).dt.normalize()
            + pd.Timedelta(hours=23, minutes=59, seconds=59),
            df_info["data_hora_registro"],
        )

        # Criar nova coluna status_change para identificar mudança de status
        df_info["status_change"] = df_info["status"].ne(df_info["status"].shift())

        # Criar coluna para identificar a mudança de máquina
        df_info["maquina_change"] = df_info["maquina_id"].ne(df_info["maquina_id"].shift())

        # Criar coluna para identificar a mudança de turno
        df_info["turno_change"] = df_info["turno"].ne(df_info["turno"].shift())

        # Atualizar coluna change para incluir mudança de turno
        df_info["change"] = (
            df_info["status_change"] | df_info["maquina_change"] | df_info["turno_change"]
        )

        # Agrupar por maquina e identificar data e hora da última mudança de status
        df_info["change_time"] = (
            df_info.groupby("maquina_id")["data_hora_registro"].shift(0).where(df_info["change"])
        )

        # Feito para agrupar por maquina_id e turno e manter o ultimo registro de cada grupo
        df_info = (
            df_info.groupby(["maquina_id", "change_time"])
            .agg(
                status=("status", "first"),
                turno=("turno", "first"),
                linha=("linha", "first"),
                fabrica=("fabrica", "first"),
                data_hora_registro=("data_hora_registro", "first"),
                contagem_total_ciclos=("contagem_total_ciclos", "last"),
                contagem_total_produzido=(
                    "contagem_total_produzido",
                    "last",
                ),
                change=("change", "first"),
                maquina_change=("maquina_change", "first"),
            )
            .reset_index()
        )

        # Criar nova coluna com a data_hora_final do status
        df_info["data_hora_final"] = (
            df_info.groupby("maquina_id")["data_hora_registro"]
            .shift(-1)
            .where(~df_info["maquina_change"])
        )

        # Atualizar coluna data_hora_final onde maquina_change é True
        mask = df_info["maquina_change"]
        df_info["data_hora_final"] = np.where(
            mask, df_info["change_time"].shift(-1), df_info["data_hora_final"]
        )

        # Remover colunas desnecessárias
        df_info.drop(
            columns=[
                "maquina_change",
                "change",
                "change_time",
            ],
            inplace=True,
        )

        # Remover linhas onde data_hora_final é nulo
        df_info.dropna(subset=["data_hora_final"], inplace=True)

        # Cria nova coluna tempo_registro_min para calcular o tempo de registro em minutos
        df_info["tempo_registro_min"] = (
            pd.to_datetime(df_info["data_hora_final"])
            - pd.to_datetime(df_info["data_hora_registro"])
        ).dt.total_seconds() / 60

        # Arredondar tempo_registro_min e converter para inteiro
        df_info["tempo_registro_min"] = df_info["tempo_registro_min"].round(0).astype(int)

        # Ajustar tipos
        df_info = df_info.astype(
            {
                "maquina_id": "category",
                "status": "category",
                "turno": "category",
                "linha": "category",
                "fabrica": "category",
                "tempo_registro_min": int,
                "contagem_total_ciclos": int,
                "contagem_total_produzido": int,
            }
        )

        # Ajustar nomenclatura dos status
        df_info["status"] = np.where(
            (df_info["status"] == "true") & (df_info["tempo_registro_min"] < 10),
            "in_test",
            df_info["status"],
        )
        df_info["status"] = np.where(df_info["status"] == "true", "rodando", df_info["status"])
        df_info["status"] = np.where(df_info["status"] == "false", "parada", df_info["status"])

        # Ajustar tipo do status
        df_info["status"] = df_info["status"].astype("category")

        # Ajustar o index
        df_info.reset_index(drop=True, inplace=True)

        return df_info

    def get_time_working(self, data: pd.DataFrame) -> pd.DataFrame:
        """
        Retorna os dados de maquina rodando.
        """

        info = self.maq_info(data)

        df_info_rodando = info[info["status"] == "rodando"]

        # Agrupar por linha, turno e data e somar o tempo de registro
        df_info_rodando = (
            df_info_rodando.groupby(
                ["linha", "turno", "status", df_info_rodando["data_hora_registro"].dt.date],
                observed=False,
            )
            .agg(tempo_registro_min=("tempo_registro_min", "sum"))
            .reset_index()
        )

        # Remover linhas onde tempo_registro_min é menor que 0
        df_info_rodando = df_info_rodando[(df_info_rodando["tempo_registro_min"] > 0)]

        # Remover onde a linha for 0
        df_info_rodando = df_info_rodando[df_info_rodando["linha"] != 0]

        # Renomear colunas
        df_info_rodando.rename(
            columns={
                "status": "motivo_nome",
                "data_hora_registro": "data_registro",
            },
            inplace=True,
        )

        # Capitalizar o motivo nome
        df_info_rodando["motivo_nome"] = df_info_rodando["motivo_nome"].str.capitalize()

        return df_info_rodando

    def get_adjusted_stops_data(self, info: pd.DataFrame) -> pd.DataFrame:
        """
        Retorna os dados de paradas ajustados de acordo com as regras definidas.

        Args:
            info (pd.DataFrame): O dataframe contendo os dados de paradas.

        Returns:
            pd.DataFrame: O dataframe com os dados de paradas ajustados.
        """
        # Certificar que data_hora_registro e data_hora_final são do tipo datetime
        info["data_hora_registro"] = pd.to_datetime(info["data_hora_registro"])
        info["data_hora_final"] = pd.to_datetime(info["data_hora_final"])

        # Ordenar por maquina_id e data_hora_registro
        df_info = info.sort_values(by=["maquina_id", "data_hora_registro"])

        # Criar coluna auxiliar para identificar a maquina rodando
        df_info["rodando"] = np.where(df_info["status"] == "rodando", 1, 0)

        # Unir grupos de paradas, levando em conta mudança de maquina e turno
        df_info["group"] = (
            (df_info["rodando"] != df_info["rodando"].shift())
            | (df_info["maquina_id"] != df_info["maquina_id"].shift())
            | (df_info["turno"] != df_info["turno"].shift())
            | (
                df_info["data_hora_registro"].dt.date
                != df_info["data_hora_registro"].shift().dt.date
            )
        ).cumsum()

        # Agrerar por grupo
        df_info = (
            df_info.groupby(["group"])
            .agg(
                maquina_id=("maquina_id", "first"),
                status=("status", "first"),
                turno=("turno", "first"),
                linha=("linha", "first"),
                fabrica=("fabrica", "first"),
                data_hora_registro=("data_hora_registro", "first"),
                data_hora_final=("data_hora_final", "last"),
                tempo_registro_min=("tempo_registro_min", "sum"),
                contagem_total_ciclos=("contagem_total_ciclos", "last"),
                contagem_total_produzido=("contagem_total_produzido", "last"),
            )
            .reset_index(drop=True)
        )

        # Alterar in_test para parada
        df_info["status"] = np.where(df_info["status"] == "in_test", "parada", df_info["status"])

        # Substituir valores nulos por np.nan
        df_info.fillna(value=np.nan, inplace=True)

        return df_info

    def dayofweek_adjust(self, df: pd.DataFrame) -> pd.DataFrame:
        """
        Incluir colunas para identificar sábados, domingos e feriados.

        Args:
            df (pd.DataFrame): DataFrame com os dados de paradas.

        Returns:
            pd.DataFrame: DataFrame com as colunas adicionadas.
        """

        # Garantir que data_hora_registro é do tipo datetime
        df["data_hora_registro"] = pd.to_datetime(df["data_hora_registro"])

        # Identificar sábados
        df["sabado"] = np.where(df["data_hora_registro"].dt.dayofweek == 5, 1, 0)

        # Identificar domingos
        df["domingo"] = np.where(df["data_hora_registro"].dt.dayofweek == 6, 1, 0)

        # Ler arquivo com os feriados
        holidays = pd.read_csv("./assets/feriados.csv")

        # Converter para datetime
        holidays["feriados"] = pd.to_datetime(holidays["feriados"])

        # Identificar feriados
        df["feriado"] = (
            df["data_hora_registro"]
            .dt.date.isin(pd.to_datetime(holidays["feriados"]).dt.date)
            .astype(int)
        )

        return df

    def get_maq_info_cleaned(self, df_info: pd.DataFrame) -> pd.DataFrame:
        """
        Retorna os dados de paradas ajustados de acordo com as regras definidas.

        Args:
            df_info (pd.DataFrame): O dataframe contendo os dados de paradas.

        Returns:
            pd.DataFrame: O dataframe com os dados de paradas ajustados.
        """

        # Ajustar dados de maquina_info
        df_info = self.maq_info(df_info)

        # Ajustar dados de paradas
        df_info = self.get_adjusted_stops_data(df_info)

        # Incluir colunas para identificar sábados, domingos e feriados
        df_info = self.dayofweek_adjust(df_info)

        return df_info

    def get_maq_occ_cleaned(self, df_occ: pd.DataFrame) -> pd.DataFrame:
        """
        Retorna os dados de ocorrências ajustados de acordo com as regras definidas.

        Args:
            df_occ (pd.DataFrame): O dataframe contendo os dados de ocorrências.

        Returns:
            pd.DataFrame: O dataframe com os dados de ocorrências ajustados.
        """

        # Motivos de Parada
        motivos = {
            1: "Ajustes",
            2: "Troca de Bobina",
            3: "Refeição",
            4: "Reunião",
            5: "Café e Ginástica Laboral",
            6: "Limpeza",
            7: "Manutenção Elétrica",
            8: "Manutenção Mecânica",
            9: "Material em Falta",
            10: "Setup de Sabor",
            11: "Setup de Tamanho",
            12: "Parada Programada",
            13: "Intervenção de Qualidade",
            14: "Linha Cheia",
            15: "Treinamento",
            16: "Limpeza Industrial",
            17: "Troca de Filme",
        }

        # Ajustar coluna motivo_id para int
        df_occ = df_occ.astype({"motivo_id": int})

        # Unir data_registro e hora_registro
        df_occ["data_hora_registro"] = (
            df_occ["data_registro"].astype(str)
            + " "
            + df_occ["hora_registro"].astype(str).str.split(".").str[0]
        )

        # Ajustar data_hora_registro para datetime
        df_occ["data_hora_registro"] = pd.to_datetime(df_occ["data_hora_registro"])

        # Criar coluna com motivo_nome com base no dicionário motivos
        df_occ["motivo_nome"] = df_occ["motivo_id"].map(motivos)

        # Ajustar "problema" e "solucao" se a string estiver vazia
        df_occ["problema"] = np.where(df_occ["problema"] == "", np.nan, df_occ["problema"])
        df_occ["solucao"] = np.where(df_occ["solucao"] == "", np.nan, df_occ["solucao"])

        # Copiar motivo_nome para problema caso problema seja nulo e motivo_id não seja 1,7,8,9,14
        df_occ["problema"] = np.where(
            (df_occ["problema"].isnull())
            & (
                ~df_occ["motivo_id"].isin(
                    [
                        1,
                        7,
                        8,
                        9,
                        14,
                    ]
                )
            ),
            df_occ["motivo_nome"],
            df_occ["problema"],
        )

        # Ajustar ordem das colunas e seus tipos
        df_occ = df_occ.reindex(
            columns=[
                "maquina_id",
                "motivo_id",
                "motivo_nome",
                "problema",
                "solucao",
                "data_hora_registro",
                "usuario_id",
            ]
        )
        df_occ = df_occ.astype(
            {
                "maquina_id": "category",
                "motivo_id": int,
                "motivo_nome": "category",
                "problema": str,
                "solucao": "category",
                "data_hora_registro": "datetime64[ns]",
                "usuario_id": "category",
            }
        )

        return df_occ

    def get_maq_production_cleaned(self, df_production: pd.DataFrame) -> pd.DataFrame:
        """
        Retorna os dados de produção ajustados de acordo com as regras definidas.

        Args:
            df_production (pd.DataFrame): O dataframe contendo os dados de produção.

        Returns:
            pd.DataFrame: O dataframe com os dados de produção ajustados.
        """

        # Incluir coluna turno_number para ordenar os turnos
        df_production["turno_number"] = df_production["turno"].map({"MAT": 2, "VES": 3, "NOT": 1})

        # Ordenar por maquina_id, data_registro e turno_number
        df_production.sort_values(
            by=["linha", "data_registro", "turno_number"],
            inplace=True,
            ascending=[True, True, False],
        )

        # Remover coluna turno_number
        df_production.drop(columns=["turno_number"], inplace=True)

        # Ajustar tipos
        df_production = df_production.astype(
            {
                "maquina_id": "category",
                "linha": "category",
                "turno": "category",
                "total_ciclos": int,
                "total_produzido": int,
                "data_registro": "datetime64[ns]",
            }
        )

        # Ajustar o index
        df_production.reset_index(drop=True, inplace=True)

        return df_production


clean_data = CleanData()

In [7]:
df_info_clean = clean_data.maq_info(df_info.copy())
df_info_clean

Unnamed: 0,maquina_id,status,turno,linha,fabrica,data_hora_registro,contagem_total_ciclos,contagem_total_produzido,data_hora_final,tempo_registro_min
0,TMF001,rodando,NOT,9,1,2024-02-01 00:01:38,12,12,2024-02-01 01:57:38,116
1,TMF001,parada,NOT,9,1,2024-02-01 01:57:38,2276,2266,2024-02-01 01:59:38,2
2,TMF001,rodando,NOT,9,1,2024-02-01 01:59:38,2304,2292,2024-02-01 02:57:38,58
3,TMF001,parada,NOT,9,1,2024-02-01 02:57:38,3462,3436,2024-02-01 04:03:38,66
4,TMF001,rodando,NOT,9,1,2024-02-01 04:03:38,3476,3448,2024-02-01 05:59:39,116
...,...,...,...,...,...,...,...,...,...,...
8905,TMF015,rodando,MAT,3,1,2024-02-23 14:48:54,4754,4532,2024-02-23 15:54:54,66
8906,TMF015,parada,MAT,3,1,2024-02-23 15:54:54,6122,5856,2024-02-23 16:02:54,8
8907,TMF015,parada,VES,3,1,2024-02-23 16:02:54,0,0,2024-02-23 20:44:55,282
8908,TMF015,in_test,VES,3,1,2024-02-23 20:44:55,14,4,2024-02-23 20:48:55,4


In [41]:
df_info_stops = clean_data.get_adjusted_stops_data(df_info_clean.copy())
df_info_stops

Unnamed: 0,maquina_id,status,turno,linha,fabrica,data_hora_registro,data_hora_final,tempo_registro_min,contagem_total_ciclos,contagem_total_produzido
0,TMF001,rodando,NOT,9,1,2024-02-01 00:01:38,2024-02-01 01:57:38,116,12,12
1,TMF001,parada,NOT,9,1,2024-02-01 01:57:38,2024-02-01 01:59:38,2,2276,2266
2,TMF001,rodando,NOT,9,1,2024-02-01 01:59:38,2024-02-01 02:57:38,58,2304,2292
3,TMF001,parada,NOT,9,1,2024-02-01 02:57:38,2024-02-01 04:03:38,66,3462,3436
4,TMF001,rodando,NOT,9,1,2024-02-01 04:03:38,2024-02-01 05:59:39,116,3476,3448
...,...,...,...,...,...,...,...,...,...,...
6139,TMF015,rodando,MAT,3,1,2024-02-23 14:02:54,2024-02-23 14:46:54,44,3864,3692
6140,TMF015,parada,MAT,3,1,2024-02-23 14:46:54,2024-02-23 14:48:54,2,4748,4532
6141,TMF015,rodando,MAT,3,1,2024-02-23 14:48:54,2024-02-23 15:54:54,66,4754,4532
6142,TMF015,parada,MAT,3,1,2024-02-23 15:54:54,2024-02-23 16:02:54,8,6122,5856


In [42]:
df_info_cleaned = clean_data.get_maq_info_cleaned(df_info.copy())
df_info_cleaned

Unnamed: 0,maquina_id,status,turno,linha,fabrica,data_hora_registro,data_hora_final,tempo_registro_min,contagem_total_ciclos,contagem_total_produzido,sabado,domingo,feriado
0,TMF001,rodando,NOT,9,1,2024-02-01 00:01:38,2024-02-01 01:57:38,116,12,12,0,0,0
1,TMF001,parada,NOT,9,1,2024-02-01 01:57:38,2024-02-01 01:59:38,2,2276,2266,0,0,0
2,TMF001,rodando,NOT,9,1,2024-02-01 01:59:38,2024-02-01 02:57:38,58,2304,2292,0,0,0
3,TMF001,parada,NOT,9,1,2024-02-01 02:57:38,2024-02-01 04:03:38,66,3462,3436,0,0,0
4,TMF001,rodando,NOT,9,1,2024-02-01 04:03:38,2024-02-01 05:59:39,116,3476,3448,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6139,TMF015,rodando,MAT,3,1,2024-02-23 14:02:54,2024-02-23 14:46:54,44,3864,3692,0,0,0
6140,TMF015,parada,MAT,3,1,2024-02-23 14:46:54,2024-02-23 14:48:54,2,4748,4532,0,0,0
6141,TMF015,rodando,MAT,3,1,2024-02-23 14:48:54,2024-02-23 15:54:54,66,4754,4532,0,0,0
6142,TMF015,parada,MAT,3,1,2024-02-23 15:54:54,2024-02-23 16:02:54,8,6122,5856,0,0,0


In [43]:
df_maq_occ_cleaned = clean_data.get_maq_occ_cleaned(df_occ.copy())
df_maq_occ_cleaned

Unnamed: 0,maquina_id,motivo_id,motivo_nome,problema,solucao,data_hora_registro,usuario_id
0,TMF005,3,Refeição,Refeição,,2024-02-01 02:58:31,000441
1,TMF002,3,Refeição,Refeição,,2024-02-01 02:58:41,000441
2,TMF015,3,Refeição,Refeição,,2024-02-01 02:58:51,000441
3,TMF011,3,Refeição,Refeição,,2024-02-01 02:59:00,000441
4,TMF014,3,Refeição,Refeição,,2024-02-01 02:59:11,000441
...,...,...,...,...,...,...,...
513,TMF004,16,Limpeza Industrial,Limpeza Industrial,,2024-02-23 16:01:04,000939
514,TMF009,6,Limpeza,Limpeza,,2024-02-23 17:51:22,000774
515,TMF007,6,Limpeza,Limpeza,,2024-02-23 17:51:37,000774
516,TMF012,6,Limpeza,Limpeza,,2024-02-23 17:51:52,000774


In [44]:
df_maq_info_production_cleaned = clean_data.get_maq_production_cleaned(df_info_production.copy())
df_maq_info_production_cleaned

Unnamed: 0,maquina_id,linha,turno,total_ciclos,total_produzido,data_registro,hora_registro
0,TMF001,9,NOT,7898,7810,2024-02-01,07:59:39.593333
1,TMF001,9,MAT,7928,7828,2024-02-01,15:59:41.033333
2,TMF001,9,VES,90,14,2024-02-01,23:59:42.476666
3,TMF001,9,NOT,0,0,2024-02-02,06:45:43.693333
4,TMF001,9,VES,0,0,2024-02-02,23:59:05.410000
...,...,...,...,...,...,...,...
910,TMF015,3,VES,2292,2242,2024-02-22,23:58:51.823333
911,TMF015,3,NOT,7172,7126,2024-02-23,08:00:53.266666
912,TMF015,3,MAT,6144,5864,2024-02-23,16:00:54.713333
913,TMF015,3,VES,80,4,2024-02-23,23:58:56.143333


In [45]:
df_rodando = clean_data.get_time_working(df_info.copy())
df_rodando

Unnamed: 0,linha,turno,motivo_nome,data_registro,tempo_registro_min
187,1,MAT,Rodando,2024-02-01,306
188,1,MAT,Rodando,2024-02-05,302
189,1,MAT,Rodando,2024-02-06,336
190,1,MAT,Rodando,2024-02-07,254
191,1,MAT,Rodando,2024-02-08,326
...,...,...,...,...,...
2283,14,VES,Rodando,2024-02-09,462
2287,14,VES,Rodando,2024-02-16,286
2288,14,VES,Rodando,2024-02-17,20
2290,14,VES,Rodando,2024-02-19,334


# Unir info e ocorrências


In [46]:
# service/join_data.py
# cSpell: disable=invalid-name


class JoinData:
    """
    Essa classe é responsável por juntar os dados de ocorrências, paradas e produção.
    """

    def join_info_occ(self, df_occ: pd.DataFrame, df_info: pd.DataFrame) -> pd.DataFrame:
        """
        Junta os dados de ocorrências e paradas.

        Args:
            df_occ (pd.DataFrame): DataFrame com os dados de ocorrências.
            df_info (pd.DataFrame): DataFrame com os dados de paradas.

        Returns:
            pd.DataFrame: DataFrame com os dados de ocorrências e paradas juntos.
        """

        # Garantir que as culunas com datas sejam datetime
        df_occ["data_hora_registro"] = pd.to_datetime(df_occ["data_hora_registro"])
        df_info["data_hora_registro"] = pd.to_datetime(df_info["data_hora_registro"])
        df_info["data_hora_final"] = pd.to_datetime(df_info["data_hora_final"])

        # Juntar os dados de ocorrências e paradas
        def merge_rows(row):
            """
            Função para juntar os dados de ocorrências e paradas.
            """
            mask = (
                (df_occ["maquina_id"] == row["maquina_id"])
                & (df_occ["data_hora_registro"] >= row["data_hora_registro"])
                & (df_occ["data_hora_registro"] <= row["data_hora_final"])
            )  # mask para identificar as paradas que ocorreram durante a ocorrência

            # Criar dataframe com as paradas que ocorreram durante a ocorrência
            if df_occ[mask].shape[0] > 0:
                return pd.Series(
                    [
                        df_occ[mask]["motivo_id"].values[0],
                        df_occ[mask]["motivo_nome"].values[0],
                        df_occ[mask]["problema"].values[0],
                        df_occ[mask]["solucao"].values[0],
                        df_occ[mask]["data_hora_registro"].values[0],
                        df_occ[mask]["usuario_id"].values[0],
                    ],
                )
            else:
                return pd.Series([None, None, None, None, None, None])

        # Aplicar a função merge_rows
        df_info[
            [
                "motivo_id",
                "motivo_nome",
                "problema",
                "solucao",
                "data_hora_registro_occ",
                "usuario_id_occ",
            ]
        ] = df_info.apply(merge_rows, axis=1)

        # Reordenar colunas
        df_info = df_info.reindex(
            columns=[
                "maquina_id",
                "linha",
                "fabrica",
                "turno",
                "data_hora_registro",
                "tempo_registro_min",
                "data_hora_final",
                "status",
                "motivo_id",
                "data_hora_registro_occ",
                "motivo_nome",
                "problema",
                "solucao",
                "usuario_id_occ",
                "contagem_total_ciclos",
                "contagem_total_produzido",
                "sabado",
                "domingo",
                "feriado",
            ]
        )

        # Ordenar por linha, data_hora_registro
        df_info.sort_values(by=["linha", "data_hora_registro"], inplace=True)

        # Ajustar problema e solução caso seja "nan"
        df_info["problema"] = df_info["problema"].astype(str)
        df_info["solucao"] = df_info["solucao"].astype(str)
        df_info["problema"] = np.where(df_info["problema"] == "nan", np.nan, df_info["problema"])
        df_info["solucao"] = np.where(df_info["solucao"] == "nan", np.nan, df_info["solucao"])

        # Remove a linha com tempo_registro_min negativo ou 0
        df_info = df_info[df_info["tempo_registro_min"] > 0]

        def move_columns(df: pd.DataFrame) -> pd.DataFrame:
            # Adiciona uma verificação para garantir que 'data_hora_registro_occ', 'data_hora_registro' e 'data_hora_final' não sejam NaN
            mask = (
                df[["data_hora_registro_occ", "data_hora_registro", "data_hora_final"]]
                .notna()
                .all(axis=1)
            )

            df["data_hora_registro_occ"] = df["data_hora_registro_occ"].replace(np.nan, pd.NaT)
            df = df.astype({"data_hora_registro_occ": "datetime64[ns]"})

            # Calcula a diferença absoluta entre data_hora_registro_occ e data_hora_registro e data_hora_final
            df["diff_registro"] = np.where(
                mask,
                (df["data_hora_registro_occ"] - df["data_hora_registro"]).dt.total_seconds().abs(),
                np.nan,
            )
            df["diff_final"] = np.where(
                mask,
                (df["data_hora_registro_occ"] - df["data_hora_final"]).dt.total_seconds().abs(),
                np.nan,
            )

            # Encontra qual das duas diferenças é menor
            mask_idxmin = df[["diff_registro", "diff_final"]].notna().any(axis=1)
            df.loc[mask & mask_idxmin, "closest"] = df.loc[
                mask & mask_idxmin, ["diff_registro", "diff_final"]
            ].idxmin(
                axis=1
            )  # removendo erro:
            # FutureWarning: The behavior of DataFrame.idxmin with all-NA values,
            # or any-NA and skipna=False, is deprecated.
            # In a future version this will raise ValueError

            columns = [
                "motivo_id",
                "motivo_nome",
                "problema",
                "solucao",
                "usuario_id_occ",
            ]

            # Move a ocorrência para a linha anterior se a data_hora_registro for mais próxima
            mask = (
                (df["closest"].shift(-1) == "diff_registro")
                & (df["status"].shift(-1) == "rodando")
                & df["motivo_id"].isnull()
            )
            for column in columns:
                df[column] = np.where(mask, df[column].shift(-1), df[column])
                df[column] = np.where(mask.shift(1), np.nan, df[column])

            # Tratamento separado para a coluna "data_hora_registro_occ"
            df["data_hora_registro_occ"] = np.where(
                mask, df["data_hora_registro_occ"].shift(-1), df["data_hora_registro_occ"]
            )
            df["data_hora_registro_occ"] = np.where(
                mask.shift(1), pd.NaT, df["data_hora_registro_occ"]
            )

            # Move a ocorrência para a linha seguinte se a data_hora_final for mais próxima
            mask = (
                (df["closest"].shift(1) == "diff_final")
                & (df["status"].shift(1) == "rodando")
                & df["motivo_id"].isnull()
            )
            for column in columns:
                df[column] = np.where(mask, df[column].shift(1), df[column])
                df[column] = np.where(mask.shift(-1), np.nan, df[column])

            # Tratamento separado para a coluna "data_hora_registro_occ"
            df["data_hora_registro_occ"] = np.where(
                mask, df["data_hora_registro_occ"].shift(1), df["data_hora_registro_occ"]
            )
            df["data_hora_registro_occ"] = np.where(
                mask.shift(-1), pd.NaT, df["data_hora_registro_occ"]
            )

            return df

        df_info = move_columns(df_info)

        # Remove colunas desnecessárias
        df_info.drop(
            columns=[
                "diff_registro",
                "diff_final",
                "closest",
            ],
            inplace=True,
        )

        # Ajustar motivo id
        df_info["motivo_id"] = df_info["motivo_id"].fillna(np.nan)

        # Ajustar em problema, solucao, usuario_id_occ e motivo_nome
        df_info["problema"] = df_info["problema"].fillna("")
        df_info["solucao"] = df_info["solucao"].fillna("")
        df_info["usuario_id_occ"] = np.where(
            df_info["usuario_id_occ"] == pd.NaT, np.nan, df_info["usuario_id_occ"]
        )
        df_info["motivo_nome"] = np.where(
            df_info["motivo_nome"] == pd.NaT, np.nan, df_info["motivo_nome"]
        )
        # Mudar de np.nan para pd.NaT em data_hora_registro_occ
        df_info["data_hora_registro_occ"] = np.where(
            df_info["data_hora_registro_occ"].isnull(), pd.NaT, df_info["data_hora_registro_occ"]
        )

        # Corrigir os formatos das colunas
        df_info = df_info.astype(
            {
                "data_hora_registro_occ": "datetime64[ns]",
                "motivo_nome": "category",
                "problema": str,
                "solucao": str,
                "usuario_id_occ": "category",
            }
        )

        # Ajustar problema para Domingo, Sábado e Feriado se motivo_id for 12
        df_info["problema"] = np.where(
            (df_info["motivo_id"] == 12) & (df_info["domingo"] == 1),
            "Domingo",
            df_info["problema"],
        )
        df_info["problema"] = np.where(
            (df_info["motivo_id"] == 12) & (df_info["sabado"] == 1),
            "Sábado",
            df_info["problema"],
        )
        df_info["problema"] = np.where(
            (df_info["motivo_id"] == 12) & (df_info["feriado"] == 1),
            "Feriado",
            df_info["problema"],
        )

        # Se o motivo_id for nulo, status for parada e o tempo registro for maior que 475 e for sábado, domingo ou feriado, então o problema é "Domingo", "Sábado" ou "Feriado" e o motivo id é 12 e o motivo nome é "Parada Programada"
        condition = (
            (df_info["motivo_id"].isnull())
            & (df_info["status"] == "parada")
            & (df_info["tempo_registro_min"] > 475)
        )
        condition_sabado = condition & (df_info["sabado"] == 1)
        df_info["motivo_id"] = np.where(condition_sabado, 12, df_info["motivo_id"])
        df_info["motivo_nome"] = np.where(
            condition_sabado, "Parada Programada", df_info["motivo_nome"]
        )
        df_info["problema"] = np.where(condition_sabado, "Sábado", df_info["problema"])

        condition_domingo = condition & (df_info["domingo"] == 1)
        df_info["motivo_id"] = np.where(condition_domingo, 12, df_info["motivo_id"])
        df_info["motivo_nome"] = np.where(
            condition_domingo, "Parada Programada", df_info["motivo_nome"]
        )
        df_info["problema"] = np.where(condition_domingo, "Domingo", df_info["problema"])

        condition_feriado = condition & (df_info["feriado"] == 1)
        df_info["motivo_id"] = np.where(condition_feriado, 12, df_info["motivo_id"])
        df_info["motivo_nome"] = np.where(
            condition_feriado, "Parada Programada", df_info["motivo_nome"]
        )
        df_info["problema"] = np.where(condition_feriado, "Feriado", df_info["problema"])

        # Se o tempo de registro for maior que 480 mudar para 480
        df_info["tempo_registro_min"] = np.where(
            df_info["tempo_registro_min"] > 480, 480, df_info["tempo_registro_min"]
        )

        # Ajusta para parada programada qdo não tem o motivo e fica parada todo turno
        mask = (df_info["motivo_id"].isnull()) & (df_info["tempo_registro_min"] >= 478)
        df_info["motivo_id"] = np.where(mask, 12, df_info["motivo_id"])
        df_info["motivo_nome"] = np.where(mask, "Parada Programada", df_info["motivo_nome"])

        # ---- Busca a última parada caso não tenha motivo e seja a primeira parada do turno ---- #
        # Ordena o DataFrame por 'maquina_id' e 'turno'
        df_info.sort_values(by=["maquina_id", "data_hora_registro"], inplace=True)

        # Cria colunas temporárias com os valores do último turno
        df_info["motivo_id_last"] = df_info.groupby("maquina_id", observed=False)[
            "motivo_id"
        ].shift()
        df_info["motivo_nome_last"] = df_info.groupby("maquina_id", observed=False)[
            "motivo_nome"
        ].shift()
        df_info["problema_last"] = df_info.groupby("maquina_id", observed=False)["problema"].shift()
        df_info["solucao_last"] = df_info.groupby("maquina_id", observed=False)["solucao"].shift()

        # Cria a máscara para as linhas que atendem às condições
        mask = (df_info["tempo_registro_min"] > 475) & df_info["motivo_id"].isnull()

        # Aplica a máscara e substitui os valores nas colunas originais
        df_info.loc[mask, "motivo_id"] = df_info.loc[mask, "motivo_id_last"]
        df_info.loc[mask, "motivo_nome"] = df_info.loc[mask, "motivo_nome_last"]
        df_info.loc[mask, "problema"] = df_info.loc[mask, "problema_last"]
        df_info.loc[mask, "solucao"] = df_info.loc[mask, "solucao_last"]

        # Remove as colunas temporárias
        df_info = df_info.drop(
            columns=["motivo_id_last", "motivo_nome_last", "problema_last", "solucao_last"]
        )
        # -------------------------------------------------------------------------------- #

        # Se for motivo 12 e parada for 478 minutos ou mais, ajustar para 480
        df_info["tempo_registro_min"] = np.where(
            (df_info["motivo_id"] == 12) & (df_info["tempo_registro_min"] >= 478),
            480,
            df_info["tempo_registro_min"],
        )

        # Se o motivo for 6, o tempo de registro for maior que 200 e for sábado,
        # alterar o motivo para 16 e o motivo_nome para "Limpeza Industrial"
        m6_mask = (
            (df_info["motivo_id"] == 6)
            & (df_info["tempo_registro_min"] > 200)
            & (df_info["sabado"] == 1)
        )
        df_info["motivo_id"] = np.where(m6_mask, 16, df_info["motivo_id"])
        df_info["motivo_nome"] = np.where(
            (df_info["motivo_id"] == 16) & (df_info["sabado"] == 1),
            "Limpeza Industrial",
            df_info["motivo_nome"],
        )

        # Se for domingo e o tempo de registro for 480, ajustar para
        # motivo_id 12, motivo_nome "Parada Programada" e problema "Domingo"
        condition_mask = (df_info["domingo"] == 1) & (df_info["tempo_registro_min"] == 480)
        df_info["motivo_id"] = np.where(condition_mask, 12, df_info["motivo_id"])
        df_info["motivo_nome"] = np.where(
            condition_mask, "Parada Programada", df_info["motivo_nome"]
        )
        df_info["problema"] = np.where(condition_mask, "Domingo", df_info["problema"])

        # Remover as linhas onde a linha é 0
        df_info = df_info[df_info["linha"] != 0]

        # Remover as linhas onde status é rodando
        df_info = df_info[df_info["status"] != "rodando"]

        # Ajustar o index
        df_info.reset_index(drop=True, inplace=True)

        return df_info

    def problems_adjust(self, df: pd.DataFrame, threshold=88) -> pd.DataFrame:
        """
        Ajusta os problemas no DataFrame fornecido, mapeando problemas semelhantes para um nome comum.

        Args:
            df (pd.DataFrame): O DataFrame contendo os problemas a serem ajustados.
            threshold (int, opcional): O limite de similaridade para combinar problemas. Por padrão é 88.

        Returns:
            pd.DataFrame: O DataFrame com problemas ajustados.
        """
        # Encontrar problemas únicos
        unique_problems = df["problema"].unique()
        problem_mapping = {}

        # Criar um dicionário para mapear os problemas
        for problem in unique_problems:
            if problem and problem not in problem_mapping:
                problem = str(problem).capitalize()

                # Corrigir erros básicos de digitação
                problem = problem.replace("Beckup", "Backup")
                problem = problem.replace("Becukp", "Backup")
                problem = problem.replace("Stm", "Atm")

                matches = process.extract(problem, unique_problems, limit=len(unique_problems))

                # Encontrar os problemas com maior similaridade
                similar_problems = [match[0] for match in matches if match[1] >= threshold]

                # Criar um dicionário com os problemas similares
                for similar_problem in similar_problems:
                    problem_mapping[similar_problem] = problem

        # Mapear os problemas
        df["problema"] = df["problema"].map(problem_mapping)

        return df


join_data = JoinData()

In [47]:
df_info_occ = join_data.join_info_occ(df_maq_occ_cleaned.copy(), df_info_cleaned.copy())
df_maq_info_occ_combined = join_data.problems_adjust(df_info_occ.copy())
df_maq_info_occ_combined

Unnamed: 0,maquina_id,linha,fabrica,turno,data_hora_registro,tempo_registro_min,data_hora_final,status,motivo_id,data_hora_registro_occ,motivo_nome,problema,solucao,usuario_id_occ,contagem_total_ciclos,contagem_total_produzido,sabado,domingo,feriado
0,TMF001,9,1,NOT,2024-02-01 01:57:38,2,2024-02-01 01:59:38,parada,,NaT,,,,,2276,2266,0,0,0
1,TMF001,9,1,NOT,2024-02-01 02:57:38,66,2024-02-01 04:03:38,parada,3.0,2024-02-01 02:59:42,Refeição,Refeição,,000441,3462,3436,0,0,0
2,TMF001,9,1,NOT,2024-02-01 05:59:39,10,2024-02-01 06:09:39,parada,5.0,2024-02-01 05:58:41,Café e Ginástica Laboral,Café e ginástica laboral,,000441,5738,5702,0,0,0
3,TMF001,9,1,NOT,2024-02-01 07:51:39,10,2024-02-01 08:01:39,parada,,NaT,,,,,7780,7692,0,0,0
4,TMF001,9,1,MAT,2024-02-01 09:29:39,2,2024-02-01 09:31:39,parada,,NaT,,,,,1514,1510,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3156,TMF015,3,1,MAT,2024-02-23 10:56:53,134,2024-02-23 13:10:54,parada,3.0,2024-02-23 11:18:41,Refeição,Refeição,,000838,2792,2628,0,0,0
3157,TMF015,3,1,MAT,2024-02-23 14:00:54,2,2024-02-23 14:02:54,parada,,NaT,,,,,3858,3686,0,0,0
3158,TMF015,3,1,MAT,2024-02-23 14:46:54,2,2024-02-23 14:48:54,parada,,NaT,,,,,4748,4532,0,0,0
3159,TMF015,3,1,MAT,2024-02-23 15:54:54,8,2024-02-23 16:02:54,parada,16.0,2024-02-23 15:59:21,Limpeza Industrial,Limpeza,,000939,6122,5856,0,0,0


In [48]:
df_maq_info_occ_combined.columns

Index(['maquina_id', 'linha', 'fabrica', 'turno', 'data_hora_registro',
       'tempo_registro_min', 'data_hora_final', 'status', 'motivo_id',
       'data_hora_registro_occ', 'motivo_nome', 'problema', 'solucao',
       'usuario_id_occ', 'contagem_total_ciclos', 'contagem_total_produzido',
       'sabado', 'domingo', 'feriado'],
      dtype='object')

In [49]:
df_maq_info_production_cleaned.columns

Index(['maquina_id', 'linha', 'turno', 'total_ciclos', 'total_produzido',
       'data_registro', 'hora_registro'],
      dtype='object')

# Eficiência, Performance, Reparos


In [65]:
# service/times_data.py
# cSpell: disable=invalid-name
class TimesData:
    def __init__(self):
        # Dicionário com os descontos de parada para Eficiência

        self.desc_eff = {
            3: 60,
            5: 10,
            10: 15,
            11: 35,
            15: 60,
            17: 15,
        }

        # Dicionário com os descontos de parada para Performance

        self.desc_perf = {
            3: 60,
            5: 10,
            10: 15,
            15: 60,
            17: 15,
        }

        # Lista com os motivos de parada que não são considerados para Performance

        self.not_af_perf = [7, 8, 11, 12, 13, 16]

        # Dicionário com os descontos de parada para Reparos

        self.desc_rep = {11: 35}

        # Lista com os motivos de parada que são considerados para Reparos

        self.af_rep = [7, 8, 11]

        # Lista de Motivos que não afetam a eficiência
        self.not_af_eff = [12]

    def get_times_discount(self, info: pd.DataFrame, desc_pcp: dict[int, int]) -> pd.DataFrame:
        """
        Função para calcular os descontos de parada

        Args:
            info (pd.DataFrame): DataFrame com os dados de parada
            desc_pcp (dict[int, int]): Dicionário com os descontos de parada

        Returns:
            pd.DataFrame: DataFrame com os descontos de parada


        Exemplo:
            >>> from app.service.get_times_data import GetTimesData
            >>> import pandas as pd
            >>> get_times_data = GetTimesData()
            >>> df_times_desc = pd.dataframe()
            >>> df_result = get_times_data.get_times_discount(df_times_desc, desc_pcp)
        """

        info_stops = info.copy()

        # Adicionar coluna com descontos de parada
        info_stops["desconto_min"] = info_stops["motivo_id"].map(desc_pcp)

        # Se houver desconto, subtrair do tempo de parada e arredondar para baixo, em uma nova coluna chamada excedente
        info_stops["excedente"] = (
            info_stops["tempo_registro_min"] - info_stops["desconto_min"]
        ).clip(lower=0)

        # Se o desconto for maior que o tempo de parada, o desconto deve ser igual ao tempo de parada
        info_stops.loc[
            info_stops["desconto_min"] > info_stops["tempo_registro_min"],
            "desconto_min",
        ] = info_stops["tempo_registro_min"]

        # Criar coluna data_registro para agrupar por dia
        info_stops["data_registro"] = info_stops["data_hora_registro"].dt.date
        # Ordenar por maquina_id, data_hora_registro, turno
        info_stops.sort_values(by=["maquina_id", "data_hora_registro", "turno"], inplace=True)

        return info_stops

    def get_elapsed_time(self, turno):
        """
        Método para calcular o tempo decorrido no turno atual.

        Este método recebe o turno atual e retorna o tempo decorrido em minutos.

        Args:
            turno (str): Turno atual

        Returns:
            float: Tempo decorrido em minutos


        Exemplo:
            >>> from app.service.get_times_data import GetTimesData
            >>> import pandas as pd
            >>> get_times_data = GetTimesData()
            >>> turno = 'MAT'
            >>> tempo_decorrido = get_times_data.get_elapsed_time(turno)
        """

        now = datetime.now()

        if turno == "MAT" and 8 <= now.hour < 16:
            shift_start = now.replace(hour=8, minute=0, second=0, microsecond=0)

        elif turno == "VES" and 16 <= now.hour < 24:
            shift_start = now.replace(hour=16, minute=0, second=0, microsecond=0)

        elif turno == "NOT" and (now.hour < 8 or now.hour >= 24):
            shift_start = now.replace(hour=0, minute=0, second=0, microsecond=0)

        else:
            return 480  # retorna o tempo padrão se não estiver no turno atual

        elapsed_time = now - shift_start

        return elapsed_time.total_seconds() / 60  # retorna o tempo decorrido em minutos

    def get_eff_data(self, df_info: pd.DataFrame, df_prod: pd.DataFrame) -> pd.DataFrame:
        """
        Método para calcular os dados de eficiência.
        Este método recebe dois DataFrames, um contendo informações de tempo de eficiência e
        desconto e outro contendo informações de produção,
        e retorna um DataFrame com informações de eficiência.


        Parâmetros:

        df_info (pd.DataFrame): DataFrame contendo informações de maquina
        df_prod (pd.DataFrame): DataFrame contendo informações de produção.


        Retorna:

        pd.DataFrame: DataFrame com informações de eficiência.


        Exemplo de uso:
        ```
        times_data = TimesData()
        df_eff_times_desc = pd.dataframe()
        df_prod = pd.dataframe()
        df_result = times_data.get_eff_data(df_info, df_prod)
        ```
        """

        df_eff_times_desc = self.get_times_discount(df_info, self.desc_eff)
        df_prod_total = df_prod.copy()
        ciclo_ideal = 10.6

        # Descartar colunas desnecessárias de df_prod -> 'contagem_total_ciclos', 'usuario_id_maq_cadastro', 'data_hora_registro'
        df_prod_total.drop(columns=["total_ciclos"], inplace=True)

        # Se o motivo id não afeta a eficiência, desconto_min deve ser igual ao tempo_registro_min
        df_eff_times_desc.loc[
            df_eff_times_desc["motivo_id"].isin(self.not_af_eff), "desconto_min"
        ] = df_eff_times_desc["tempo_registro_min"]

        # Agrupar por maquina_id, data_registro e turno e o desconto
        df_eff_times_desc = (
            df_eff_times_desc.groupby(
                ["maquina_id", "linha", "data_registro", "turno"], observed=False
            )
            .agg(
                {
                    "desconto_min": "sum",
                }
            )
            .reset_index()
        )

        # Garantir que a coluna data_registro é datetime em ambos os dataframes
        df_eff_times_desc["data_registro"] = pd.to_datetime(
            df_eff_times_desc["data_registro"]
        ).dt.date

        df_prod_total["data_registro"] = pd.to_datetime(df_prod_total["data_registro"]).dt.date

        # Fazer merge com df_prod_total
        df_eff_times_desc = pd.merge(
            df_prod_total,
            df_eff_times_desc,
            on=["maquina_id", "linha", "turno", "data_registro"],
            how="left",
        )

        # Ajustar desc_min para 0 quando for nulo
        df_eff_times_desc.loc[df_eff_times_desc["desconto_min"].isnull(), "desconto_min"] = 0

        # Criar coluna com tempo esperado de produção
        df_eff_times_desc["tempo_esperado_min"] = df_eff_times_desc.apply(
            lambda row: (
                np.floor(self.get_elapsed_time(row["turno"]) - row["desconto_min"])
                if row["data_registro"] == datetime.now().date()
                else 480 - row["desconto_min"]
            ),
            axis=1,
        )

        # Produção esperada por turno
        df_eff_times_desc["producao_esperada"] = (
            df_eff_times_desc["tempo_esperado_min"] * ciclo_ideal
        ) * 2

        # Calcular a eficiência
        df_eff_times_desc["eficiencia"] = (
            df_eff_times_desc["total_produzido"] / df_eff_times_desc["producao_esperada"]
        )

        # Ordenar pela linha e data_registro
        df_eff_times_desc = df_eff_times_desc.sort_values(
            by=["linha", "data_registro"], ascending=True
        )

        # Remover as linhas onde a linha é 0
        df_eff_times_desc = df_eff_times_desc[df_eff_times_desc["linha"] != 0]

        # Se eficiencia for nula, substituir por 0
        df_eff_times_desc.loc[df_eff_times_desc["eficiencia"].isnull(), "eficiencia"] = 0

        # Se a produção esperada for 0 e a eficiência for 0, substituir por 1
        df_eff_times_desc.loc[
            (df_eff_times_desc["producao_esperada"] == 0),
            "eficiencia",
        ] = np.nan

        # Ajustar o index
        df_eff_times_desc.reset_index(drop=True, inplace=True)

        return df_eff_times_desc

    def get_perf_data(self, df_info: pd.DataFrame, df_prod: pd.DataFrame) -> pd.DataFrame:
        """
        Método para calcular os dados de performance.

        Este método recebe dois DataFrames, um contendo informações de máquina e
        outro contendo informações de produção,
        e retorna um DataFrame com informações de performance.

        Args:
            df_info (pd.DataFrame): DataFrame contendo informações de maquina
            df_prod (pd.DataFrame): DataFrame contendo informações de produção.

        Returns:
            pd.DataFrame: DataFrame com informações de performance.

        Exemplo de uso:
        ```
        times_data = TimesData()
        df_info = pd.dataframe()
        df_prod = pd.dataframe()
        df_result = times_data.get_perf_data(df_info, df_prod)
        ```
        """

        df_info = df_info.copy()
        df_perf_times_desc = self.get_times_discount(df_info, self.desc_perf)
        df_prod_total = df_prod.copy()

        # Descartar colunas desnecessárias de df_prod
        df_prod_total.drop(
            columns=[
                "total_ciclos",
                "total_produzido",
            ],
            inplace=True,
        )

        # Conseguir apenas as datas/turno se o motivo_id = 12 e o tempo de registro for maior que 480
        datas_programadas = df_perf_times_desc[
            (df_perf_times_desc["motivo_id"] == 12)
            & (df_perf_times_desc["tempo_registro_min"] == 480)
        ][["linha", "data_registro", "turno"]]

        # Remover as linhas que não afetam a performance
        df_perf_times_desc = df_perf_times_desc[
            ~df_perf_times_desc["motivo_id"].isin(self.not_af_perf)
        ]

        # Criar coluna 'afeta' para identificar as paradas que afetam a performance
        df_perf_times_desc["afeta"] = df_perf_times_desc["excedente"]

        # Se desconto for nulo, substituir afeta pelo valor de tempo_registro_min
        df_perf_times_desc.loc[df_perf_times_desc["desconto_min"].isnull(), "afeta"] = (
            df_perf_times_desc["tempo_registro_min"]
        )

        # Agrupar por maquina_id, data_registro e turno e somar o tempo de
        # desconto e o afeta
        df_perf_times_desc = (
            df_perf_times_desc.groupby(
                ["maquina_id", "linha", "data_registro", "turno"], observed=False
            )
            .agg(
                {
                    "desconto_min": "sum",
                    "afeta": "sum",
                }
            )
            .reset_index()
        )

        # Garantir que a coluna data_registro é datetime em ambos os dataframes
        df_perf_times_desc["data_registro"] = pd.to_datetime(
            df_perf_times_desc["data_registro"]
        ).dt.date

        df_prod_total["data_registro"] = pd.to_datetime(df_prod_total["data_registro"]).dt.date
        # Fazer merge com df_prod_total

        df_perf_times_desc = pd.merge(
            df_prod_total,
            df_perf_times_desc,
            on=["maquina_id", "linha", "turno", "data_registro"],
            how="left",
        )

        # Ajustar desconto_min para 0 quando for nulo
        df_perf_times_desc.loc[df_perf_times_desc["desconto_min"].isnull(), "desconto_min"] = 0

        # Ajustar afeta para 0 quando for nulo
        df_perf_times_desc.loc[df_perf_times_desc["afeta"].isnull(), "afeta"] = 0

        # Criar coluna com tempo esperado de produção
        df_perf_times_desc["tempo_esperado_min"] = df_perf_times_desc.apply(
            lambda row: (
                np.floor(self.get_elapsed_time(row["turno"]) - row["desconto_min"])
                if row["data_registro"] == datetime.now().date()
                else 480 - row["desconto_min"]
            ),
            axis=1,
        )

        # Calcular a performance
        df_perf_times_desc["performance"] = (
            df_perf_times_desc["afeta"] / df_perf_times_desc["tempo_esperado_min"]
        )

        # Ordenar pela linha e data_registro
        df_perf_times_desc = df_perf_times_desc.sort_values(
            by=["linha", "data_registro"], ascending=True
        )

        # Remover as linhas onde a linha é 0
        df_perf_times_desc = df_perf_times_desc[df_perf_times_desc["linha"] != 0]

        # Se a data e o turno coincidem com datas_programadas, a performance é np.nan
        # Converter 'data_registro' para datetime
        df_perf_times_desc["data_registro"] = pd.to_datetime(df_perf_times_desc["data_registro"])
        datas_programadas["data_registro"] = pd.to_datetime(datas_programadas["data_registro"])

        # Criar uma chave única em ambos os DataFrames
        df_perf_times_desc["key"] = (
            df_perf_times_desc["linha"].astype(str)
            + df_perf_times_desc["data_registro"].dt.strftime("%Y-%m-%d")
            + df_perf_times_desc["turno"].astype(str)
        )
        datas_programadas["key"] = (
            datas_programadas["linha"].astype(str)
            + datas_programadas["data_registro"].dt.strftime("%Y-%m-%d")
            + datas_programadas["turno"].astype(str)
        )

        # Se a chave coincide com datas_programadas, a performance é np.nan
        df_perf_times_desc.loc[
            df_perf_times_desc["key"].isin(datas_programadas["key"]),
            "performance",
        ] = np.nan

        # Remover a coluna 'key'
        df_perf_times_desc.drop(columns=["key"], inplace=True)
        datas_programadas.drop(columns=["key"], inplace=True)

        # Ajustar o index
        df_perf_times_desc.reset_index(drop=True, inplace=True)

        return df_perf_times_desc

    def get_reparos_data(self, df_info: pd.DataFrame, df_prod: pd.DataFrame) -> pd.DataFrame:
        """
        Método para calcular os dados de reparo.

        Este método recebe dois DataFrames, um contendo informações de máquina e
        e outro contendo informações de produção,
        e retorna um DataFrame com informações de Reparo.


        ### Parâmetros:
        df_info (pd.DataFrame): DataFrame contendo informações de maquina

        df_prod (pd.DataFrame): DataFrame contendo informações de produção.

        ### Retorna:

        pd.DataFrame: DataFrame com informações de performance.

        ### Exemplo de uso:
        ```
        times_data = TimesData()
        df_info = pd.dataframe()
        df_prod = pd.dataframe()
        df_result = times_data.get_reparos_data(df_info, df_prod)
        ```
        """

        df_info = df_info.copy()

        df_rep_times_desc = self.get_times_discount(df_info, self.desc_rep)

        df_prod_total = df_prod.copy()

        # Descartar colunas desnecessárias de df_prod
        df_prod_total.drop(
            columns=[
                "total_ciclos",
                "total_produzido",
            ],
            inplace=True,
        )

        # Conseguir apenas as datas que o motivo_id = 12 e o tempo de registro for maior que 480
        datas_programadas = df_rep_times_desc[
            (df_rep_times_desc["motivo_id"] == 12)
            & (df_rep_times_desc["tempo_registro_min"] == 480)
        ][["linha", "data_registro", "turno"]]

        # Remover as linhas que não afetam o reparo
        df_rep_times_desc = df_rep_times_desc[df_rep_times_desc["motivo_id"].isin(self.af_rep)]

        # Criar coluna 'afeta' para identificar as paradas que afetam o reparo
        df_rep_times_desc["afeta"] = df_rep_times_desc["excedente"]

        # Se desconto for nulo, substituir afeta pelo valor de tempo_registro_min
        df_rep_times_desc.loc[df_rep_times_desc["desconto_min"].isnull(), "afeta"] = (
            df_rep_times_desc["tempo_registro_min"]
        )

        # Agrupar por maquina_id, data_registro e turno e somar o tempo de
        # desconto e o afeta
        df_rep_times_desc = (
            df_rep_times_desc.groupby(
                ["maquina_id", "linha", "data_registro", "turno"], observed=False
            )
            .agg(
                {
                    "desconto_min": "sum",
                    "afeta": "sum",
                }
            )
            .reset_index()
        )

        # Garantir que a coluna data_registro é datetime em ambos os dataframes
        df_rep_times_desc["data_registro"] = pd.to_datetime(
            df_rep_times_desc["data_registro"]
        ).dt.date
        df_prod_total["data_registro"] = pd.to_datetime(df_prod_total["data_registro"]).dt.date

        # Fazer merge com df_prod_total
        df_rep_times_desc = pd.merge(
            df_prod_total,
            df_rep_times_desc,
            on=["maquina_id", "linha", "turno", "data_registro"],
            how="left",
        )

        # Ajustar desconto_min para 0 quando for nulo
        df_rep_times_desc.loc[df_rep_times_desc["desconto_min"].isnull(), "desconto_min"] = 0

        # Ajustar afeta para 0 quando for nulo
        df_rep_times_desc.loc[df_rep_times_desc["afeta"].isnull(), "afeta"] = 0

        # Criar coluna com tempo esperado de produção
        df_rep_times_desc["tempo_esperado_min"] = df_rep_times_desc.apply(
            lambda row: (
                np.floor(self.get_elapsed_time(row["turno"]) - row["desconto_min"])
                if row["data_registro"] == datetime.now().date()
                else 480 - row["desconto_min"]
            ),
            axis=1,
        )

        # Calcular o reparo
        df_rep_times_desc["reparo"] = (
            df_rep_times_desc["afeta"] / df_rep_times_desc["tempo_esperado_min"]
        )

        # Ordenar pela linha e data_registro
        df_rep_times_desc = df_rep_times_desc.sort_values(
            by=["linha", "data_registro"], ascending=True
        )

        # Remover as linhas onde a linha é 0
        df_rep_times_desc = df_rep_times_desc[df_rep_times_desc["linha"] != 0]

        # Se a data e o turno coincidem com datas_programadas, a performance é np.nan
        # Converter 'data_registro' para datetime
        df_rep_times_desc["data_registro"] = pd.to_datetime(df_rep_times_desc["data_registro"])
        datas_programadas["data_registro"] = pd.to_datetime(datas_programadas["data_registro"])

        # Criar uma chave única em ambos os DataFrames
        df_rep_times_desc["key"] = (
            df_rep_times_desc["linha"].astype(str)
            + df_rep_times_desc["data_registro"].dt.strftime("%Y-%m-%d")
            + df_rep_times_desc["turno"].astype(str)
        )
        datas_programadas["key"] = (
            datas_programadas["linha"].astype(str)
            + datas_programadas["data_registro"].dt.strftime("%Y-%m-%d")
            + datas_programadas["turno"].astype(str)
        )

        # Se a chave coincide com datas_programadas, a performance é np.nan
        df_rep_times_desc.loc[
            df_rep_times_desc["key"].isin(datas_programadas["key"]),
            "reparo",
        ] = np.nan

        # Remover a coluna 'key'
        df_rep_times_desc.drop(columns=["key"], inplace=True)
        datas_programadas.drop(columns=["key"], inplace=True)

        # Ajustar o index
        df_rep_times_desc.reset_index(drop=True, inplace=True)

        return df_rep_times_desc


times_data = TimesData()

In [66]:
df_eff = times_data.get_eff_data(
    df_maq_info_occ_combined.copy(), df_maq_info_production_cleaned.copy()
)
df_eff

Unnamed: 0,maquina_id,linha,turno,total_produzido,data_registro,hora_registro,desconto_min
0,TMF001,9,NOT,7810,2024-02-01,07:59:39.593333,70.0
1,TMF001,9,MAT,7828,2024-02-01,15:59:41.033333,0.0
2,TMF001,9,VES,14,2024-02-01,23:59:42.476666,0.0
3,TMF001,9,NOT,0,2024-02-02,06:45:43.693333,480.0
4,TMF001,9,VES,0,2024-02-02,23:59:05.410000,0.0
...,...,...,...,...,...,...,...
910,TMF015,3,VES,2242,2024-02-22,23:58:51.823333,368.0
911,TMF015,3,NOT,7126,2024-02-23,08:00:53.266666,0.0
912,TMF015,3,MAT,5864,2024-02-23,16:00:54.713333,60.0
913,TMF015,3,VES,4,2024-02-23,23:58:56.143333,480.0


In [67]:
df_perf = times_data.get_perf_data(
    df_maq_info_occ_combined.copy(), df_maq_info_production_cleaned.copy()
)
df_perf

Unnamed: 0,maquina_id,linha,turno,data_registro,hora_registro,desconto_min,afeta,tempo_esperado_min,performance
0,TMF005,1,NOT,2024-02-01,07:59:31.586666,68.0,10.0,412.0,0.024272
1,TMF005,1,MAT,2024-02-01,15:59:33.023333,60.0,114.0,420.0,0.271429
2,TMF005,1,VES,2024-02-01,23:59:34.466666,0.0,480.0,480.0,1.000000
3,TMF005,1,NOT,2024-02-02,06:45:35.683333,0.0,0.0,480.0,
4,TMF005,1,VES,2024-02-02,23:58:57.400000,0.0,304.0,480.0,0.633333
...,...,...,...,...,...,...,...,...,...
881,TMF009,14,NOT,2024-02-23,08:00:33.386666,0.0,0.0,480.0,
882,TMF009,14,MAT,2024-02-23,15:58:34.810000,0.0,0.0,480.0,
883,TMF009,14,VES,2024-02-23,23:58:36.240000,0.0,480.0,480.0,1.000000
884,TMF009,14,NOT,2024-02-24,08:00:37.663333,0.0,0.0,480.0,


In [68]:
df_reparos = times_data.get_reparos_data(
    df_maq_info_occ_combined.copy(), df_maq_info_production_cleaned.copy()
)
df_reparos

Unnamed: 0,maquina_id,linha,turno,data_registro,hora_registro,desconto_min,afeta,tempo_esperado_min,reparo
0,TMF005,1,NOT,2024-02-01,07:59:31.586666,0.0,0.0,480.0,0.0
1,TMF005,1,MAT,2024-02-01,15:59:33.023333,0.0,0.0,480.0,0.0
2,TMF005,1,VES,2024-02-01,23:59:34.466666,0.0,0.0,480.0,0.0
3,TMF005,1,NOT,2024-02-02,06:45:35.683333,0.0,0.0,480.0,
4,TMF005,1,VES,2024-02-02,23:58:57.400000,0.0,0.0,480.0,0.0
...,...,...,...,...,...,...,...,...,...
881,TMF009,14,NOT,2024-02-23,08:00:33.386666,0.0,0.0,480.0,
882,TMF009,14,MAT,2024-02-23,15:58:34.810000,0.0,0.0,480.0,
883,TMF009,14,VES,2024-02-23,23:58:36.240000,0.0,0.0,480.0,0.0
884,TMF009,14,NOT,2024-02-24,08:00:37.663333,0.0,0.0,480.0,


# Gráficos


In [69]:
# HeatMap
# cSpell: disable=invalid-name
def test(dataframe, meta):
    # Converter 'data_registro' para datetime e criar uma nova coluna 'data_turno'
    dataframe["data_registro"] = pd.to_datetime(dataframe["data_registro"])
    dataframe["data_turno"] = dataframe["data_registro"].dt.strftime("%Y-%m-%d")

    # Agrupar por 'data_turno' e 'turno' e calcular a média da eficiência
    df_grouped = (
        dataframe.groupby(["data_turno", "turno"], observed=False)["eficiencia"]
        .mean()
        .reset_index()
    )

    # Remodelar os dados para o formato de heatmap
    df_pivot = df_grouped.pivot(index="turno", columns="data_turno", values="eficiencia")

    # Reordenar o índice do DataFrame
    df_pivot = df_pivot.reindex(["VES", "MAT", "NOT"])

    # Criar escala de cores personalizada - cores do bootstrap
    colors = [
        [0, "#e30613"],
        [0.9, "#e30613"],
        [0.9, "#00a13a"],
        [1, "#00a13a"],
    ]

    # Extrair apenas o dia da data
    df_pivot.columns = pd.to_datetime(df_pivot.columns).day

    # Criar o gráfico de calor
    fig = go.Figure(
        data=go.Heatmap(
            z=df_pivot.values,
            x=df_pivot.columns,
            y=df_pivot.index,
            colorscale=colors,
            zmin=0,
            zmax=1,  # Escala de valores de 0 a 1
            hoverongaps=False,
            hovertemplate="Turno: %{y}<br>Dia: %{x}<br>Valor: %{z:.1%}",
            showscale=False,  # Não mostrar a escala de cores
            xgap=1,  # Espaçamento entre os dias
            ygap=1,  # Espaçamento entre os turnos
        )
    )

    # Adicionar anotações com a média da eficiência
    for (i, j), value in np.ndenumerate(df_pivot.values):
        fig.add_annotation(
            x=df_pivot.columns[j],
            y=df_pivot.index[i],
            text=f"{value:.1%}",
            showarrow=False,
            font=dict(color="white", size=8),
        )

    # Definir o título do gráfico
    fig.update_layout(
        title=f"Eficiência - Meta {meta}%",
        xaxis_title="Dia",
        yaxis_title="Turno",
        title_x=0.5,  # Centralizar o título
        xaxis_nticks=31,  # Definir o número de dias
        xaxis=dict(
            tickmode="linear",
            tickvals=list(range(1, 32)),  # Definir os dias
            ticktext=list(range(1, 32)),  # Definir os dias
        ),
        yaxis=dict(
            tickmode="linear",
        ),
        plot_bgcolor="white",
        margin=dict(t=40, b=40, l=40, r=40),
        font=dict({"family": "Inter"}),
    )

    fig.show()


test(df_eff, 90)

KeyError: 'Column not found: eficiencia'

In [None]:
# HeatMap
# cSpell: disable=invalid-name
def graph_heatmap_perf_v2(dataframe: pd.DataFrame, meta: int):
    # Converter 'data_registro' para datetime e criar uma nova coluna 'data_turno'

    dataframe["data_registro"] = pd.to_datetime(dataframe["data_registro"])

    dataframe["data_turno"] = dataframe["data_registro"].dt.strftime("%Y-%m-%d")

    # Agrupar por 'data_turno' e 'turno' e calcular a média da eficiência

    df_grouped = (
        dataframe.groupby(["data_turno", "turno"], observed=False)["performance"]
        .mean()
        .reset_index()
    )

    # Remodelar os dados para o formato de heatmap

    df_pivot = df_grouped.pivot(index="turno", columns="data_turno", values="performance")

    # Reordenar o índice do DataFrame
    df_pivot = df_pivot.reindex(["VES", "MAT", "NOT"])

    # Criar escala de cores personalizada
    colors = [[0, "green"], [0.04, "green"], [0.04, "red"], [1, "red"]]

    # Extrair apenas o dia da data
    df_pivot.columns = pd.to_datetime(df_pivot.columns).day

    # Criar o gráfico de calor
    fig = go.Figure(
        data=go.Heatmap(
            z=df_pivot.values,
            x=df_pivot.columns,
            y=df_pivot.index,
            colorscale=colors,
            zmin=0,
            zmax=1,  # Escala de valores de 0 a 1
            hoverongaps=False,
            hovertemplate="Turno: %{y}<br>Dia: %{x}<br>Valor: %{z:.1%}",
            showscale=False,  # Não mostrar a escala de cores
            xgap=1,  # Espaçamento entre os dias
            ygap=1,  # Espaçamento entre os turnos
        )
    )

    # Adicionar anotações com a média da eficiência
    for (i, j), value in np.ndenumerate(df_pivot.values):
        fig.add_annotation(
            x=df_pivot.columns[j],
            y=df_pivot.index[i],
            text=f"{value:.1%}",
            showarrow=False,
            font=dict(color="white", size=8),
        )

    # Definir o título do gráfico
    fig.update_layout(
        title=f"Performance - Meta {meta}%",
        xaxis_title="Dia",
        yaxis_title="Turno",
        title_x=0.5,  # Centralizar o título
        xaxis_nticks=31,  # Definir o número de dias
        xaxis=dict(
            tickmode="linear",
            tickvals=list(range(1, 32)),  # Definir os dias
            ticktext=list(range(1, 32)),  # Definir os dias
            tickangle=45,  # Rotacionar os dias
        ),
        yaxis=dict(
            tickmode="linear",
            tickangle=45,
        ),
        plot_bgcolor="white",
        margin=dict(t=40, b=40, l=40, r=40),
        font=dict({"family": "Inter"}),
    )

    fig.show()


graph_heatmap_perf_v2(df_perf, 4)

In [None]:
# HeatMap
# cSpell: disable=invalid-name
def graph_heatmap_reparos(dataframe: pd.DataFrame, meta: int):
    # Converter 'data_registro' para datetime e criar uma nova coluna 'data_turno'

    dataframe["data_registro"] = pd.to_datetime(dataframe["data_registro"])

    dataframe["data_turno"] = dataframe["data_registro"].dt.strftime("%Y-%m-%d")

    # Agrupar por 'data_turno' e 'turno' e calcular a média da eficiência

    df_grouped = (
        dataframe.groupby(["data_turno", "turno"], observed=False)["reparo"].mean().reset_index()
    )

    # Remodelar os dados para o formato de heatmap

    df_pivot = df_grouped.pivot(index="turno", columns="data_turno", values="reparo")

    # Reordenar o índice do DataFrame
    df_pivot = df_pivot.reindex(["VES", "MAT", "NOT"])

    # Criar escala de cores personalizada
    colors = [[0, "green"], [0.04, "green"], [0.04, "red"], [1, "red"]]

    # Extrair apenas o dia da data
    df_pivot.columns = pd.to_datetime(df_pivot.columns).day

    # Criar o gráfico de calor
    fig = go.Figure(
        data=go.Heatmap(
            z=df_pivot.values,
            x=df_pivot.columns,
            y=df_pivot.index,
            colorscale=colors,
            zmin=0,
            zmax=1,  # Escala de valores de 0 a 1
            hoverongaps=False,
            hovertemplate="Turno: %{y}<br>Dia: %{x}<br>Valor: %{z:.1%}",
            showscale=False,  # Não mostrar a escala de cores
            xgap=1,  # Espaçamento entre os dias
            ygap=1,  # Espaçamento entre os turnos
        )
    )

    # Adicionar anotações com a média da eficiência
    for (i, j), value in np.ndenumerate(df_pivot.values):
        fig.add_annotation(
            x=df_pivot.columns[j],
            y=df_pivot.index[i],
            text=f"{value:.1%}",
            showarrow=False,
            font=dict(color="white", size=8),
        )

    # Definir o título do gráfico
    fig.update_layout(
        title=f"Reparos - Meta {meta}%",
        xaxis_title="Dia",
        yaxis_title="Turno",
        title_x=0.5,  # Centralizar o título
        xaxis_nticks=31,  # Definir o número de dias
        xaxis=dict(
            tickmode="linear",
            tickvals=list(range(1, 32)),  # Definir os dias
            ticktext=list(range(1, 32)),  # Definir os dias
            tickangle=45,  # Rotacionar os dias
        ),
        yaxis=dict(
            tickmode="linear",
            tickangle=45,
        ),
        plot_bgcolor="white",
        margin=dict(t=40, b=40, l=40, r=40),
    )

    fig.show()


reparos_map = graph_heatmap_reparos(df_reparos, 4)

In [None]:
# Gauge Chart
# cSpell: disable=invalid-name


def calculate_eficiencia(df):
    return df["eficiencia"].mean()


def calculate_performance(df):
    return df["performance"].mean()


def calculate_reparos(df):
    return df["reparo"].mean()


def draw_circular_progress_bar_v2(df: pd.DataFrame, type: str, meta: int):
    # mapear o tipo das funções
    type_map = {
        "eficiencia": calculate_eficiencia,
        "performance": calculate_performance,
        "reparo": calculate_reparos,
    }

    # Verificar a primeira data_registro do dataframe para saber se os dados são do mês atual
    this_month = df["data_registro"].iloc[0].month == pd.Timestamp.now().month
    month = "Atual" if this_month else "Anterior"

    # Obter a função com base no tipo
    func = type_map[type]

    # Calcular a porcentagem
    percentage = func(df.copy()) if func is not None else 0

    # Arredondar porcentagem para não ter casas decimais
    percentage = round(percentage, 2)

    # Definir a cor com base na porcentagem
    if type == "eficiencia":
        color = "green" if percentage >= (meta / 100) else "red"
    else:
        color = "red" if percentage >= (meta / 100) else "green"

    # Definir a escala do eixo para "performance" e "reparo"
    axis_range = [0, 100] if type == "eficiencia" else [100, 0]

    # Criar o gráfico
    fig = go.Figure(
        go.Indicator(
            mode="gauge+number",
            value=percentage * 100,
            number={"suffix": "%"},
            domain={"x": [0, 1], "y": [0, 1]},
            title={
                "text": month,
                "font": {"size": 14},
            },
            gauge={
                "axis": {
                    "range": axis_range,
                    "tickfont": {"size": 8},
                },
                "bar": {"color": color},
                "steps": [
                    {"range": [0, 100], "color": "lightgray"},
                ],
                "threshold": {
                    "line": {"color": "black", "width": 4},
                    "thickness": 0.75,
                    "value": meta,
                },
            },
        )
    )

    fig.update_layout(
        autosize=True,
        margin=dict(t=30, b=30, l=30, r=30),
        plot_bgcolor="white",
        width=200,  # apenas para visualização no jupyter
        height=200,  # apenas para visualização no jupyter
    )

    fig.show()

In [None]:
draw_circular_progress_bar_v2(df_eff, "eficiencia", 90)
draw_circular_progress_bar_v2(df_perf, "performance", 4)
draw_circular_progress_bar_v2(df_reparos, "reparo", 4)

In [None]:
# Line Graph
# cSpell: disable=invalid-name
def line_graph(df: pd.DataFrame, indicator: str, meta: int):
    # Converter 'data_registro' para datetime e criar uma nova coluna 'data_turno'

    df["data_registro"] = pd.to_datetime(df["data_registro"])

    df["data_turno"] = df["data_registro"].dt.strftime("%Y-%m-%d")

    # Agrupar por 'data_turno' e 'turno' e calcular a média da eficiência

    df_grouped = df.groupby(["data_turno"])[indicator].mean().reset_index()

    # Multiplicar a eficiência por 100 para converter para porcentagem

    df_grouped[indicator] = df_grouped[indicator] * 100

    # Criar o gráfico

    fig = go.Figure(
        go.Scatter(
            x=df_grouped["data_turno"],
            y=df_grouped[indicator],
            mode="lines+markers",
            line=dict(color="blue"),
            marker=dict(color="blue"),
            hovertemplate="<i>Dia</i>: %{x}" + "<br><b>Porcentagem</b>: %{y:.1f}%<br>",
            hoverinfo="skip",
        )
    )

    # Linha de meta
    fig.add_trace(
        go.Scatter(
            x=df_grouped["data_turno"],
            y=[meta] * len(df_grouped),
            mode="lines",
            name="Meta",
            line=dict(color="red", dash="dash"),
            hovertemplate="<b>Meta</b>: %{y:.0f}%<extra></extra>",
        )
    )

    fig.update_layout(
        showlegend=False,
        plot_bgcolor="white",
        xaxis=dict(showticklabels=False),  # Esconde os valores do eixo x
        yaxis=dict(showticklabels=False),
        margin=dict(t=0, b=0, l=0, r=0),
        # height=None, # removido apenas para visualização no jupyter
        # autosize=True, # removido apenas para visualização no jupyter
        height=200,  # apenas para visualização no jupyter
    )

    fig.show()


line_graph(df_eff, "eficiencia", 90)


line_graph(df_perf, "performance", 4)


line_graph(df_reparos, "reparo", 4)

In [None]:
# indicator_turn.py
# cSpell: disable=invalid-name
import matplotlib.colors as mcolors
import seaborn as sns


class IndicatorsTurn:
    """
    Esta classe é responsável por criar os gráficos de indicadores.
    """

    def __init__(self):
        self.danger_color = "#dc3545"
        self.warning_color = "#ffc107"
        self.success_color = "#198754"
        self.grey_500_color = "#adb5bd"
        self.grey_600_color = "#6c757d"
        self.grey_700_color = "#495057"
        self.grey_800_color = "#343a40"
        self.grey_900_color = "#212529"

    def get_eff_heat_turn(
        self,
        dataframe: pd.DataFrame,
        meta: int = 90,
        annotations: bool = False,
    ) -> go.Figure:
        """
        Este método é responsável por criar o gráfico de eficiência, por turno.

        Parâmetros:
        dataframe (pd.DataFrame): DataFrame contendo os dados para o gráfico.
                                Deve incluir as colunas 'data_registro', 'turno' e 'eficiencia'.
        meta (int): Meta de eficiência a ser alcançada. Padrão: 90.
        annotations (bool): Se True, adiciona anotações com a média da eficiência.

        Retorna:
        fig: Objeto plotly.graph_objects.Figure com o gráfico de eficiência.

        O gráfico é um heatmap que mostra a eficiência média por maquina e data.
        A eficiência é colorida de vermelho se estiver abaixo de 90% e
        de verde se estiver acima de 90%.
        """

        # Converter 'data_registro' para datetime e criar uma nova coluna 'data_turno'
        dataframe["data_registro"] = pd.to_datetime(dataframe["data_registro"])
        dataframe["data_turno"] = dataframe["data_registro"].dt.strftime("%Y-%m-%d")

        # Agrupar por 'data_turno' e 'turno' e calcular a média da eficiência
        df_grouped = (
            dataframe.groupby(["data_turno", "linha"], observed=False)["eficiencia"]
            .mean()
            .reset_index()
        )

        # Ordenar por linha e data
        df_grouped = df_grouped.sort_values(["linha", "data_turno"], ascending=[True, True])

        # Remodelar os dados para o formato de heatmap
        df_pivot = df_grouped.pivot(index="linha", columns="data_turno", values="eficiencia")

        # Criar escala de cores personalizada - cores do bootstrap
        colors = [
            [0, self.danger_color],
            [0.9, self.danger_color],
            [0.9, self.success_color],
            [1, self.success_color],
        ]

        # Extrair apenas o dia da data
        df_pivot.columns = pd.to_datetime(df_pivot.columns).day

        num_cells = len(df_pivot.index) * len(df_pivot.columns)
        font_size = 3000 / num_cells

        # Criar o gráfico de calor
        fig = go.Figure(
            data=go.Heatmap(
                z=df_pivot.values,
                x=df_pivot.columns,
                y=df_pivot.index,
                colorscale=colors,
                zmin=0,
                zmax=1,  # Escala de valores de 0 a 1
                hoverongaps=False,
                hovertemplate="Linha: %{y}<br>Dia: %{x}<br>Eficiência: %{z:.1%}",
                showscale=False,  # Não mostrar a escala de cores
                xgap=1,  # Espaçamento entre os dias
                ygap=1,  # Espaçamento entre os turnos
            )
        )

        # Adicionar anotações com a média da eficiência
        if annotations:
            for (i, j), value in np.ndenumerate(df_pivot.values):
                fig.add_annotation(
                    x=df_pivot.columns[j],
                    y=df_pivot.index[i],
                    text=f"{value:.1%}",
                    showarrow=False,
                    font=dict(color="white", size=font_size),
                )

        # Definir o título do gráfico
        fig.update_layout(
            title=f"Eficiência - Meta {meta}%",
            xaxis_title="Dia",
            yaxis_title="Linha",
            title_x=0.5,  # Centralizar o título
            xaxis_nticks=31,  # Definir o número de dias
            xaxis=dict(
                tickmode="linear",
                tickvals=list(range(1, 32)),  # Definir os dias
                ticktext=list(range(1, 32)),  # Definir os dias
                tickangle=45,  # Rotacionar os dias
            ),
            yaxis=dict(
                tickmode="linear",
                tickangle=45,
            ),
            plot_bgcolor="white",
            margin=dict(t=40, b=40, l=40, r=40),
        )

        fig.show()

        return fig

    def get_eff_bar_turn(self, dataframe: pd.DataFrame, meta: int = 90) -> go.Figure:
        # Agrupar por 'turno' e "linha" e calcular a média da eficiência e soma da produção
        df_grouped = (
            dataframe.groupby(["linha", "turno"], observed=False)
            .agg({"eficiencia": "mean", "total_produzido": "sum"})
            .reset_index()
        )

        # Ajustar produção total para caixas, dividindo por 10
        df_grouped["total_produzido"] = (df_grouped["total_produzido"] / 10).round(0)

        # Gráfico de barras
        fig = px.bar(
            df_grouped,
            orientation="h",
            x="eficiencia",
            y="linha",
            color="turno",
            barmode="group",
            hover_data={
                "total_produzido": True,
                "linha": False,
                "eficiencia": False,
            },
            color_discrete_map={
                "NOT": self.grey_500_color,
                "MAT": self.grey_600_color,
                "VES": self.grey_900_color,
            },
            labels={"eficiencia": "Eficiência"},
        )

        # Ajustar hover
        fig.update_traces(
            hovertemplate="<b>Linha</b>: %{y}<br><b>Eficiência</b>: %{x:.1%}<br><b>Produção</b>: %{customdata[0]} caixas<br>",
        )

        # Definir o título do gráfico
        fig.update_layout(
            title="Eficiência por Linhas",
            xaxis_title="Eficiência",
            yaxis_title="Linha",
            title_x=0.5,  # Centralizar o título
            plot_bgcolor="white",
            margin=dict(t=40, b=40, l=40, r=40),
            legend=dict(
                title_text="Turno",
            ),
        )

        # Ajustar valores de x para porcentagem
        fig.update_xaxes(tickformat=".0%")

        # Ajustar para aparecer todas as linhas
        fig.update_yaxes(
            autorange="reversed",
            tickvals=df_grouped["linha"].unique(),
        )

        # Calcular a média geral de eficiência
        avg_efficiency = df_grouped["eficiencia"].mean()

        # Adicionar linha de média geral
        fig.add_trace(
            go.Scatter(
                x=[avg_efficiency] * len(df_grouped["linha"]),
                y=df_grouped["linha"],
                mode="lines",
                name="Média Geral",
                line=dict(dash="dash", color="black"),
                hovertemplate="<b>Média Geral</b>: %{x:.1%}<br>",
            )
        )

        # Adicionar linha de meta
        fig.add_trace(
            go.Scatter(
                x=[meta / 100] * len(df_grouped["linha"]),
                y=df_grouped["linha"],
                mode="lines",
                name="Meta",
                line=dict(dash="dash", color="red"),
                hovertemplate="<b>Meta</b>: %{x:.1%}<br>",
            )
        )

        fig.show()

        return fig

    def get_eff_lost(
        self, df_info: pd.DataFrame, working_minutes: pd.DataFrame = None
    ) -> pd.DataFrame:
        # Conseguindo dataframe com tempos ajustados
        eff_discount = times_data.desc_eff
        df_info_desc_times = times_data.get_times_discount(df_info, eff_discount)

        # Unir df_info_desc_times com working_minutes.
        if working_minutes is not None:
            df_info_desc_times = pd.concat(
                [df_info_desc_times, working_minutes], ignore_index=True, sort=False
            )

        # Se coluna "excedente" for nula, substituir pelo valor de "tempo_registro_min"
        df_info_desc_times.loc[df_info_desc_times["excedente"].isnull(), "excedente"] = (
            df_info_desc_times["tempo_registro_min"]
        )

        # Se motivo id for nulo e excedente for menor que 15 substituir motivo_nome por
        # "Não apontado - 15min ou menos"
        df_info_desc_times.loc[
            (df_info_desc_times["motivo_id"].isnull()) & (df_info_desc_times["excedente"] <= 5),
            ["motivo_nome", "problema"],
        ] = ["5 min ou menos", "Não apontado - 5 min ou menos"]

        # Preencher onde motivo_nome for nulo
        df_info_desc_times["motivo_nome"].fillna("Motivo não apontado", inplace=True)

        df_info_desc_times.loc[
            (df_info_desc_times["motivo_id"] == 12)
            & (df_info_desc_times["problema"] == "Parada programada"),
            "problema",
        ] = "Parada Programada"
        return df_info_desc_times

    def adjust_df_for_bar_lost(self, df: pd.DataFrame, indicator: str) -> pd.DataFrame:
        """
        Remove as paradas que não afetam o indicador.

        Parâmetros:
        - df: Dataframe contendo os dados
        - indicator: Define se é performance ou repair

        Retorno:
        - df: Dataframe contendo só as paradas que afetam.
        """

        indicator_actions = {
            "performance": lambda df: df[~df["motivo_id"].isin(times_data.not_af_perf)],
            "repair": lambda df: df[df["motivo_id"].isin(times_data.af_rep)],
            "eficiencia": lambda df: df[~df["motivo_id"].isin(times_data.not_af_eff)],
        }

        if indicator in indicator_actions:
            df = indicator_actions[indicator](df)

        return df

    def get_eff_bar_lost(self, df: pd.DataFrame, turn: str, checked: bool = False) -> go.Figure:
        """
        Retorna um gráfico de barras representando o tempo perdido que mais impacta a eficiência.

        Parâmetros:
        - df: DataFrame contendo os dados necessários para a criação do gráfico.
        - checked: Se True, retorna o gráfico de barras agrupado por motivo_nome e problema.

        Retorno:
        - fig: Objeto go.Figure contendo o gráfico de barras.
        """
        # Turno Map
        turn_map = {
            "NOT": "Noturno",
            "MAT": "Matutino",
            "VES": "Vespertino",
        }

        # Remover linhas que não afetam a eficiência
        df = self.adjust_df_for_bar_lost(df, "eficiencia")

        # ---------- df motivo ---------- #
        # Agrupar motivo_nome
        df_motivo = (
            df.groupby("motivo_nome")["excedente"]
            .sum()
            .sort_values(ascending=False)
            .head(5)
            .reset_index()
        )

        # Preencher onde motivo_id for 3 e problema for nulo
        df.loc[
            (df["motivo_id"] == 3) & (df["problema"].isnull()),
            "problema",
        ] = "Refeição"

        # Preencher onde problema for nulo
        df.loc[:, "problema"] = df["problema"].fillna("Problema não informado")

        # ---------- df group ---------- #
        # Agrupar por motivo_nome e problema e calcular a soma do excedente
        df_grouped = df.groupby(["motivo_nome", "problema"]).agg({"excedente": "sum"}).reset_index()
        # Ordenar por excedente
        df_grouped = df_grouped.sort_values("excedente", ascending=False).head(8)

        # ---------- df problema ---------- #
        # Remover linhas onde motivo_nome é igual ao problema
        df = df[df["motivo_nome"] != df["problema"]]
        # Agrupar por problema
        df_problema = (
            df.groupby("problema")["excedente"]
            .sum()
            .sort_values(ascending=False)
            .head(5)
            .reset_index()
        )

        # Motivo
        motive_bar = go.Bar(
            name="Motivo",
            x=df_motivo["motivo_nome"],
            y=df_motivo["excedente"],
            marker_color=self.grey_600_color,
        )

        motive_bar.update(
            hovertemplate="<b>Motivo</b>: %{x}<br><b>Tempo Perdido</b>: %{y:.0f} min<br>",
        )

        # Problema

        # Cria uma paleta de cores com os valores únicos na coluna 'problema'
        palette = sns.dark_palette("lightgray", df_grouped["problema"].nunique())

        # Converte as cores RGB para hexadecimal
        palette_hex = [mcolors.to_hex(color) for color in palette]

        # Cria um dicionário que mapeia cada valor único na coluna 'problema' para uma cor na paleta
        color_map = dict(zip(df_grouped["problema"].unique(), palette_hex))

        # Mapeia os valores na coluna 'problema' para as cores correspondentes
        df_grouped["color"] = df_grouped["problema"].map(color_map)

        problem_bar = go.Bar(
            name="Problema",
            x=df_problema["problema"],
            y=df_problema["excedente"],
            marker_color=self.grey_500_color,
            hovertemplate="<b>Problema</b>: %{x}<br><b>Tempo Perdido</b>: %{y:.0f} min<br>",
        )

        # Group
        group_bar = go.Bar(
            x=df_grouped["motivo_nome"],
            y=df_grouped["excedente"],
            customdata=df_grouped["problema"],
            hovertemplate="<b>Motivo</b>: %{customdata}<br><b>Tempo Perdido</b>: %{y:.0f} min<br>",
            marker_color=self.grey_500_color,
        )

        # Gráfico de barras
        fig = (
            go.Figure(data=[motive_bar, problem_bar])
            if not checked
            else go.Figure(data=[group_bar])
        )

        fig.update_layout(
            title=f"Tempo Perdido que mais impacta a Eficiência - {turn_map[turn]}",
            xaxis_title="Motivo/Problema",
            yaxis_title="Tempo Perdido",
            title_x=0.5,
            margin=dict({"t": 80, "b": 40, "l": 40, "r": 40}),
            template="plotly_white",
            font=dict({"family": "Inter"}),
            showlegend=False,
        )

        if not checked:
            fig.update_layout(showlegend=True)

        return fig


indicators_turn = IndicatorsTurn()

In [None]:
indicators_turn.get_eff_heat_turn((df_eff[df_eff["turno"] == "MAT"]).copy(), 90, False)

indicators_turn.get_eff_bar_turn(df_eff.copy())

teste_ind = indicators_turn.get_eff_lost(df_maq_info_occ_combined.copy())

indicators_turn.get_eff_bar_lost(teste_ind.copy(), "MAT", True)





# Tabela de Paradas


In [None]:
# Paradas Empilhadas


# cSpell: disable=invalid-name
def stops(df: pd.DataFrame, data=None, turno: str = "MAT") -> pd.DataFrame:

    if data is not None:
        # Filtro pelo dia
        df = df[df["data_registro"] == pd.to_datetime(data).date()]

    # filtro pelo turno
    df = df[df["turno"] == turno]

    # Remover colunas que não serão necessárias
    df.drop(
        columns=[
            "feriado",
            "domingo",
            "sabado",
            "contagem_total_produzido",
            "contagem_total_ciclos",
            "usuario_id_occ",
            "solucao",
            "status",
        ],
        inplace=True,
    )

    # Se o tempo_registro_min for 5 ou menos, substituir problema por "Não apontado - 5min ou menos" e motivo_nome por "5min ou menos"
    df.loc[df["tempo_registro_min"] <= 5, ["problema", "motivo_nome"]] = [
        "Não apontado - 5min ou menos",
        "5min ou menos",
    ]

    # Substituir valores nulos em motivo_nome por "Motivo não apontado" e em problema por "Não Informado"
    df.fillna({"motivo_nome": "Motivo não apontado", "problema": "Não Informado"}, inplace=True)

    # Ordenar os dados para que 'Rodando' sempre apareça por último
    df["sort"] = df["motivo_nome"] == "Rodando"
    df = df.sort_values(
        by=["linha", "data_registro", "sort", "tempo_registro_min"],
        ascending=[True, True, False, False],
    )
    df = df.drop(columns="sort")

    color_dict = {
        "5min ou menos": BSColorsEnum.GREY_500_COLOR.value,
        "Motivo não apontado": BSColorsEnum.GREY_600_COLOR.value,
        "Ajustes": BSColorsEnum.GRAY_COLOR.value,
        "Troca de Bobina": BSColorsEnum.GREY_400_COLOR.value,
        "Refeição": BSColorsEnum.ORANGE_COLOR.value,
        "Reunião": BSColorsEnum.SECONDARY_COLOR.value,
        "Café e Ginástica Laboral": BSColorsEnum.PRIMARY_COLOR.value,
        "Limpeza": BSColorsEnum.GREY_700_COLOR.value,
        "Manutenção Elétrica": BSColorsEnum.SPACE_CADET_COLOR.value,
        "Manutenção Mecânica": BSColorsEnum.BLUE_DELFT_COLOR.value,
        "Material em Falta": BSColorsEnum.GREY_900_COLOR.value,
        "Setup de Sabor": BSColorsEnum.PURPLE_COLOR.value,
        "Setup de Tamanho": BSColorsEnum.PINK_COLOR.value,
        "Parada Programada": BSColorsEnum.DANGER_COLOR.value,
        "Intervenção de Qualidade": BSColorsEnum.INDIGO_COLOR.value,
        "Linha Cheia": BSColorsEnum.TEAL_COLOR.value,
        "Treinamento": BSColorsEnum.INFO_COLOR.value,
        "Limpeza Industrial": BSColorsEnum.WARNING_COLOR.value,
        "Troca de Filme": BSColorsEnum.GREY_800_COLOR.value,
        "Rodando": BSColorsEnum.SUCCESS_COLOR.value,
    }

    # Criação do gráfico de barras
    fig = px.bar(
        df,
        x="linha",
        y="tempo_registro_min",
        color="motivo_nome",
        barmode="stack",
        labels={
            "tempo_registro_min": "Tempo (min)",
            "linha": "Linha",
            "motivo_nome": "Motivo",
        },
        title="Tempo de Parada por Problema",
        color_discrete_map=color_dict,
    )

    # Adicionar título e labels
    fig.update_layout(
        title_x=0.5,
        xaxis_title="Linha",
        yaxis_title="Tempo (min)",
        plot_bgcolor="white",
        margin=dict(t=40, b=40, l=40, r=40),
        xaxis=dict(
            categoryorder="category ascending",
            tickvals=df["linha"].unique(),
        ),
    )

    fig.show()

    return fig

In [None]:
df_lost = indicators_turn.get_eff_lost(df_maq_info_occ_combined.copy(), df_rodando.copy())

stops_bar = stops(df_lost.copy(), turno="MAT")

In [None]:
# cSpell: disable=invalid-name
# Descobrir qual é o mês passado
last_month = pd.Timestamp.now() - pd.DateOffset(months=1)
last_month = last_month.strftime("%Y-%m")  # Saída '2024-01'
try:
    df_historic_data = pd.read_csv(".//assets//historic_data.csv")
except FileNotFoundError:
    df_historic_data = pd.DataFrame(
        columns=[
            "data_registro",
            "total_caixas",
            "eficiencia_media",
            "performance_media",
            "reparos_media",
            "parada_programada",
        ]
    )

# ------- Verifica se o mês passado consta nos dados ------- #
# Se constar, não fazer nada
if last_month in df_historic_data["data_registro"].values:
    print("Mês passado já consta nos dados.")
    pass

# Se não constar, criar novo dataframe para mesclar com os dados. Primeiro busca dados do mês passado
# Buscar caixas produzidas no total
total_caixas = df_maq_info_production_cleaned["total_produzido"].sum()
total_caixas = int(np.floor(total_caixas / 10))  # Saída 65649

# Buscar eficiência média
eficiencia_media = round(df_eff["eficiencia"].mean() * 100)  # Saída 90

# Buscar performance média
performance_media = round(df_perf["performance"].mean() * 100)  # Saída 4

# Buscar reparos médios
reparos_media = round(df_reparos["reparo"].mean() * 100)  # Saída 4

# Buscar tempo de parada programada
df_info_programada = df_maq_info_occ_combined[df_maq_info_occ_combined["motivo_id"] == 12]
parada_programada = df_info_programada["tempo_registro_min"].sum()  # Saída 0

# Cria um novo dataframe com os dados
df_historic = pd.DataFrame(
    {
        "data_registro": [last_month],
        "total_caixas": [total_caixas],
        "eficiencia_media": [eficiencia_media],
        "performance_media": [performance_media],
        "reparos_media": [reparos_media],
        "parada_programada": [parada_programada],
    }
)

# Salvar como csv
df_historic.to_csv(".//assets//historic_data.csv", index=False)

Mês passado já consta nos dados.
