# DataMining - Projeto SATC2030

#### Integrantes
- Eduardo Chimchek Jeronimo
- Higor Rufino Librelato
- Lucas Siqueira Sosa
- Rafael da Silva Dagostim
- Yago Carvalho da Paixão

## Etapa 3 - Limpeza dos dados

### Importando Dados

In [1]:
import pandas as pd
import numpy as np

In [2]:
dadosParada = pd.read_excel('../data/dados.xlsx')
dadosParada.head()

Unnamed: 0,Empresa,Filial,Data,Hora Inicio,Hora Término,Total Horas (hh:mm:ss),Total Horas,Número O.S.,Tipo O.S.,Número O.P.,...,Cód. Máquina,Máquina,Cód. Operador,Unnamed: 19,Cód. Serviço,Serviço,Cód. Centro Custo,Centro Custo,Usuário,Data Última Alteração
0,1.0,1.0,2023-03-01,17:57:00,18:00:00,00:03:00,0.05,0.0,,0.0,...,14.0,ORGANIZACAO E LIMPEZA,180.0,OPERADOR 1,,,,,PRODUCAO6,2023-03-07
1,1.0,1.0,2023-03-01,17:55:00,18:00:00,00:05:00,0.08,0.0,,0.0,...,14.0,ORGANIZACAO E LIMPEZA,121.0,OPERADOR 2,,,,,PRODUCAO6,2023-03-07
2,1.0,1.0,2023-03-01,17:50:00,17:53:24,00:03:24,0.05,107378.0,Normal,19719.0,...,,,150.0,OPERADOR 3,1.0,SEPARACAO,80000.0,ALMOXARIFADO,ALMOX,2023-03-01
3,1.0,1.0,2023-03-01,17:46:00,18:00:00,00:14:00,0.23,0.0,,0.0,...,14.0,ORGANIZACAO E LIMPEZA,200.0,OPERADOR 4,,,,,PRODUCAO6,2023-03-07
4,1.0,1.0,2023-03-01,17:45:00,18:00:00,00:15:00,0.25,0.0,,0.0,...,14.0,ORGANIZACAO E LIMPEZA,199.0,OPERADOR 5,,,,,PRODUCAO6,2023-03-07


### Removendo Colunas Desnecessárias
Como citado na parte 2 do documento do projeto, iremos retirar colunas que não apresentam uso dentro do projeto e do escopo escolhido.

In [3]:
dadosParada.columns

Index(['Empresa', 'Filial', 'Data', 'Hora Inicio', 'Hora Término',
       'Total Horas (hh:mm:ss)', 'Total Horas', 'Número O.S.', 'Tipo O.S.',
       'Número O.P.', 'Cód. Produto', 'Unnamed: 11', 'Qtde O.P.',
       'Cód. Parada', 'Parada', 'Cód. Apara', 'Cód. Máquina', 'Máquina',
       'Cód. Operador', 'Unnamed: 19', 'Cód. Serviço', 'Serviço',
       'Cód. Centro Custo', 'Centro Custo', 'Usuário',
       'Data Última Alteração'],
      dtype='object')

In [4]:
dadosParada = dadosParada.drop(columns=['Empresa', 'Filial', 'Unnamed: 11', 'Unnamed: 19', 'Cód. Apara', 'Cód. Centro Custo', 'Centro Custo', 'Usuário', 'Data Última Alteração', 'Total Horas (hh:mm:ss)', 'Tipo O.S.'])
dadosParada.columns

Index(['Data', 'Hora Inicio', 'Hora Término', 'Total Horas', 'Número O.S.',
       'Número O.P.', 'Cód. Produto', 'Qtde O.P.', 'Cód. Parada', 'Parada',
       'Cód. Máquina', 'Máquina', 'Cód. Operador', 'Cód. Serviço', 'Serviço'],
      dtype='object')

### Formatando Nomes
Para facilitar o entendimento do nome das colunas e do uso das mesmas ao longo do código, será feito uma formatação para remover caracteres especiais e espaçamentos além de padronizar tudo para minúscula e no formato snake_case

In [5]:
from unidecode import unidecode

def formatColumnName(column):
    newName = unidecode(column).lower()
    newName = newName.replace('.', '')
    newName = newName.replace(' ', '_')
    return newName


In [6]:
newNamesDict = dict()

for column in dadosParada.columns:
    newNamesDict[column] = formatColumnName(column)

newNamesDict

{'Data': 'data',
 'Hora Inicio': 'hora_inicio',
 'Hora Término': 'hora_termino',
 'Total Horas': 'total_horas',
 'Número O.S.': 'numero_os',
 'Número O.P.': 'numero_op',
 'Cód. Produto': 'cod_produto',
 'Qtde O.P.': 'qtde_op',
 'Cód. Parada': 'cod_parada',
 'Parada': 'parada',
 'Cód. Máquina': 'cod_maquina',
 'Máquina': 'maquina',
 'Cód. Operador': 'cod_operador',
 'Cód. Serviço': 'cod_servico',
 'Serviço': 'servico'}

In [7]:
dadosParada = dadosParada.rename(columns=newNamesDict)

dadosParada.head()

Unnamed: 0,data,hora_inicio,hora_termino,total_horas,numero_os,numero_op,cod_produto,qtde_op,cod_parada,parada,cod_maquina,maquina,cod_operador,cod_servico,servico
0,2023-03-01,17:57:00,18:00:00,0.05,0.0,0.0,,0.0,4.0,"PAUSA PARA HORÁRIO DE CAFÉ OU ALMOÇO, OU FINAL...",14.0,ORGANIZACAO E LIMPEZA,180.0,,
1,2023-03-01,17:55:00,18:00:00,0.08,0.0,0.0,,0.0,4.0,"PAUSA PARA HORÁRIO DE CAFÉ OU ALMOÇO, OU FINAL...",14.0,ORGANIZACAO E LIMPEZA,121.0,,
2,2023-03-01,17:50:00,17:53:24,0.05,107378.0,19719.0,4387.0,50.0,9.0,FINALIZACAO DE O.S.,,,150.0,1.0,SEPARACAO
3,2023-03-01,17:46:00,18:00:00,0.23,0.0,0.0,,0.0,9.0,FINALIZACAO DE O.S.,14.0,ORGANIZACAO E LIMPEZA,200.0,,
4,2023-03-01,17:45:00,18:00:00,0.25,0.0,0.0,,0.0,9.0,FINALIZACAO DE O.S.,14.0,ORGANIZACAO E LIMPEZA,199.0,,


### Verificando Tipo de Dados
Precisamos verificar os tipos de dados que contem em cada coluna e com essa informação fazer o tratamento dos dados de forma adequada.

In [8]:
dadosParada['data'].unique()

array(['2023-03-01T00:00:00.000000000', '2023-03-02T00:00:00.000000000',
       '2023-03-03T00:00:00.000000000', '2023-03-04T00:00:00.000000000',
       '2023-03-06T00:00:00.000000000', '2023-03-07T00:00:00.000000000',
       '2023-03-08T00:00:00.000000000', '2023-03-09T00:00:00.000000000',
       '2023-03-10T00:00:00.000000000', '2023-03-11T00:00:00.000000000',
       '2023-03-13T00:00:00.000000000', '2023-03-14T00:00:00.000000000',
       '2023-03-15T00:00:00.000000000', '2023-03-16T00:00:00.000000000',
       '2023-03-17T00:00:00.000000000', '2023-03-18T00:00:00.000000000',
       '2023-03-20T00:00:00.000000000', '2023-03-21T00:00:00.000000000',
       '2023-03-22T00:00:00.000000000', '2023-03-23T00:00:00.000000000',
       '2023-03-24T00:00:00.000000000', '2023-03-25T00:00:00.000000000',
       '2023-03-27T00:00:00.000000000', '2023-03-28T00:00:00.000000000',
       '2023-03-29T00:00:00.000000000', '2023-03-30T00:00:00.000000000',
       '2023-03-31T00:00:00.000000000',            

In [9]:
dadosParada['hora_inicio'].unique()

array([datetime.time(17, 57), datetime.time(17, 55),
       datetime.time(17, 50), datetime.time(17, 46),
       datetime.time(17, 45), datetime.time(17, 44),
       datetime.time(17, 40), datetime.time(17, 38),
       datetime.time(17, 36), datetime.time(17, 35),
       datetime.time(17, 31), datetime.time(17, 30),
       datetime.time(17, 25), datetime.time(17, 22),
       datetime.time(17, 16), datetime.time(17, 15),
       datetime.time(17, 12), datetime.time(17, 10), datetime.time(17, 8),
       datetime.time(17, 7), datetime.time(17, 5), datetime.time(17, 0),
       datetime.time(16, 59), datetime.time(16, 58),
       datetime.time(16, 56), datetime.time(16, 52),
       datetime.time(16, 50), datetime.time(16, 48),
       datetime.time(16, 47), datetime.time(16, 46),
       datetime.time(16, 45), datetime.time(16, 44),
       datetime.time(16, 43), datetime.time(16, 40),
       datetime.time(16, 37), datetime.time(16, 35),
       datetime.time(16, 32), datetime.time(16, 30),
    

In [10]:
dadosParada['hora_termino'].unique()

array([datetime.time(18, 0), datetime.time(17, 53, 24),
       datetime.time(17, 47, 54), datetime.time(17, 41, 35),
       datetime.time(17, 45), datetime.time(17, 35, 5),
       datetime.time(17, 40), datetime.time(17, 25, 34),
       datetime.time(17, 19, 43), datetime.time(17, 25),
       datetime.time(17, 15), datetime.time(17, 7),
       datetime.time(17, 1, 36), datetime.time(17, 5),
       datetime.time(16, 58), datetime.time(16, 55, 39),
       datetime.time(17, 55), datetime.time(17, 10),
       datetime.time(16, 49), datetime.time(17, 0), datetime.time(17, 58),
       datetime.time(16, 46, 52), datetime.time(16, 50),
       datetime.time(16, 47), datetime.time(16, 45),
       datetime.time(16, 48), datetime.time(16, 40),
       datetime.time(16, 42), datetime.time(17, 30),
       datetime.time(16, 35), datetime.time(16, 27, 4),
       datetime.time(16, 29), datetime.time(16, 21, 21),
       datetime.time(16, 18), datetime.time(16, 25),
       datetime.time(16, 11, 15), datet

In [11]:
dadosParada['total_horas'].unique()

array([5.00000e-02, 8.00000e-02, 2.30000e-01, 2.50000e-01, 3.30000e-01,
       3.70000e-01, 1.50000e-01, 4.20000e-01, 7.00000e-02, 5.00000e-01,
       1.70000e-01, 5.80000e-01, 7.50000e-01, 4.70000e-01, 8.70000e-01,
       8.80000e-01, 1.20000e-01, 1.00000e+00, 3.00000e-02, 1.03000e+00,
       1.17000e+00, 9.20000e-01, 1.20000e+00, 1.12000e+00, 3.80000e-01,
       1.25000e+00, 1.23000e+00, 1.80000e-01, 1.42000e+00, 2.70000e-01,
       1.30000e-01, 2.00000e-01, 1.15000e+00, 1.68000e+00, 5.30000e-01,
       2.00000e-02, 9.50000e-01, 1.95000e+00, 1.58000e+00, 1.53000e+00,
       7.80000e-01, 4.80000e-01, 4.50000e-01, 2.80000e-01, 2.00000e+00,
       6.20000e-01, 1.13000e+00, 1.50000e+00, 8.30000e-01, 9.30000e-01,
       2.20000e-01, 4.00000e-01, 1.00000e-01, 9.70000e-01, 3.00000e-01,
       1.08000e+00, 1.28000e+00, 1.32000e+00, 1.45000e+00, 1.10000e+00,
       1.65000e+00, 1.75000e+00, 1.83000e+00, 1.90000e+00, 1.92000e+00,
       2.08000e+00, 2.17000e+00, 2.25000e+00, 2.28000e+00, 6.300

In [12]:
dadosParada['numero_os'].unique()

array([     0., 107378., 107376., ..., 111111., 111208.,     nan])

In [13]:
dadosParada['numero_op'].unique()

array([    0., 19719., 19523., 18986., 19375.,  2027., 19984., 19648.,
       19671., 19751., 19538., 19191., 19574., 19666., 19212., 19695.,
       19526., 19714., 19208., 18921., 18931., 19774., 19939., 19311.,
        4598., 19815., 19937., 19646., 20033., 19936., 19573.,  2017.,
       19148., 19769., 19277., 18067., 19845., 19472., 19843., 19505.,
       19844., 19313., 19520., 19617., 19109., 19720., 19665.,  4791.,
       19291., 19935., 19516., 18932., 19459., 19299., 19985., 19398.,
       19370., 19826., 19683., 19598., 19883., 19517., 19694., 19938.,
       19049., 19817., 19655., 19301., 19500., 19816., 19115., 19606.,
       19776., 19836., 19066., 19693., 19879., 19458., 19501., 19534.,
       19609., 19761., 19586., 19211., 19224., 19954., 19528., 19041.,
       19777., 19378., 19117., 19536., 19567., 18049., 19793., 19217.,
       19307., 19790., 19390., 19707., 19387., 19206., 18692., 19585.,
       19649., 19721., 19514., 19650., 19123., 18590., 19377., 19798.,
      

In [14]:
dadosParada['numero_op'].unique()

array([    0., 19719., 19523., 18986., 19375.,  2027., 19984., 19648.,
       19671., 19751., 19538., 19191., 19574., 19666., 19212., 19695.,
       19526., 19714., 19208., 18921., 18931., 19774., 19939., 19311.,
        4598., 19815., 19937., 19646., 20033., 19936., 19573.,  2017.,
       19148., 19769., 19277., 18067., 19845., 19472., 19843., 19505.,
       19844., 19313., 19520., 19617., 19109., 19720., 19665.,  4791.,
       19291., 19935., 19516., 18932., 19459., 19299., 19985., 19398.,
       19370., 19826., 19683., 19598., 19883., 19517., 19694., 19938.,
       19049., 19817., 19655., 19301., 19500., 19816., 19115., 19606.,
       19776., 19836., 19066., 19693., 19879., 19458., 19501., 19534.,
       19609., 19761., 19586., 19211., 19224., 19954., 19528., 19041.,
       19777., 19378., 19117., 19536., 19567., 18049., 19793., 19217.,
       19307., 19790., 19390., 19707., 19387., 19206., 18692., 19585.,
       19649., 19721., 19514., 19650., 19123., 18590., 19377., 19798.,
      

In [15]:
dadosParada['cod_produto'].unique()

array([  nan, 4387., 5751., 5461., 4545., 7512., 6104., 4094., 6029.,
       6096., 5753., 7411., 7038., 6036., 7228., 6258., 7324., 7229.,
       5714., 6243., 6735., 6459., 6975., 5545., 7072., 7442., 5697.,
       7447., 7438., 7134., 2129., 7081., 4746., 5477., 5527., 6966.,
       7441., 3771., 7368., 6792., 6067., 5730., 5957., 5478., 6276.,
       4008., 3979., 3920., 6555., 5960., 5706., 4711., 5707., 4669.,
       6938., 7443., 6251., 6825., 4506., 6828., 5601., 4915., 7137.,
       6793., 6673., 4670., 4049., 6418., 3491., 4407., 7091., 4929.,
       5769., 5771., 2964., 3265., 6043., 3219., 4572., 4196., 4723.,
       7046., 7376., 5767., 5920., 4648., 6420., 6015., 7104., 6905.,
       6937., 6913., 6031., 6060., 7034., 2130., 6483.,  522., 5546.,
       5946., 6032., 6921., 6794., 7377., 6790., 6299., 6030., 5869.,
       4479., 7146.,  575., 6095., 4093., 5583., 7048., 3523., 2617.,
       6998., 6928., 4477., 6926., 7517., 6256., 2131., 7158., 2065.,
       3739., 4542.,

In [16]:
dadosParada['qtde_op'].unique()

array([  0.,  50.,  30., 180.,  15.,  10.,  60.,   5.,  11.,   1.,  25.,
        20., 100., 200.,  41.,  19.,   9.,  85.,   7.,  40.,  21.,   3.,
        13.,  35.,  52.,  58.,   6.,  36.,  28.,   8., 122.,   2., 126.,
       300.,  12.,  90., 350.,  33.,  80.,   4., 150., 160.,  17.,  89.,
        70.,  26., 600.,  44., 400.,  14.,  24.,  16.,  48., 225.,  53.,
        29., 120.,  47., 125., 220., 250.,  18.,  22.,  39.,  46.,  65.,
        55.,  32.,  92., 110., 130.,  23.,  43.,  66.,  76.,  37.,  nan])

In [17]:
dadosParada['cod_parada'].unique()

array([ 4.,  9., 14., 19.,  3.,  2.,  5., 16.,  6., 12., 15., 17., 21.,
       10., 18.,  1., 11.,  0.,  8., nan])

In [18]:
dadosParada['parada'].unique()

array(['PAUSA PARA HORÁRIO DE CAFÉ OU ALMOÇO, OU FINAL EXP',
       'FINALIZACAO DE O.S.',
       'RESOL. DE PROBLEMAS EM O.P. - DEFEITO INTERNO',
       'REGISTRO DO APONTAMENTO NO SISTEMA', 'TROCA DE O.S.',
       'NECESSIDADES OU ASSUNTOS PESSOAIS', 'FALTA DE MATÉRIA PRIMA',
       'PROBLEMA RELACIONADO A SAÚDE PESSOAL OU DE COLEGA',
       'PROCESSO ANTERIOR NÃO CONCLUÍDO',
       'ATENDIMENTO AO BALCAO INTERNO - ALMOXARIFADO',
       'PROCESSO PRODUÇÃO ESPECÍFICO - NÃO CALCULA PRODUTI',
       'AGUARDANDO PROCESSO DE INSPEÇÃO DA QUALIDADE',
       'CONFERÊNCIA DE MATÉRIA PRIMA NA O.P.', 'REUNIÃO',
       'RESOL. DE PROBLEMAS EM O.P. - DEFEITO EXTERNO',
       'NÃO CONFORMIDADE', 'FALTA DE ENERGIA', nan,
       'ALTERAÇÃO DO PROJETO DO PRODUTO'], dtype=object)

In [19]:
dadosParada['cod_maquina'].unique()

array([14., nan,  5., 11.,  6., 15., 20.,  3.,  2., 16., 25.,  1., 12.,
       17., 23.,  4., 24., 26., 22., 10.,  8.,  7.])

In [20]:
dadosParada['maquina'].unique()

array(['ORGANIZACAO E LIMPEZA', nan, 'MONITORAMENTO DE PROCESSO INTERNO',
       'REGISTROS DE RNC DE O.P. ENCERRADA',
       'SERVIÇOS PARA OUTROS SETORES', 'TREINAMENTO',
       'REUNIÃO DE FEEDBACK/ ALINHAMENTOS',
       'TEMPO OCIOSO (SEM ATIVIDADE)', 'EMBALAGEM',
       'GRAVAÇÃO DE MICROCONTROLADOR',
       'APONTAMENTO NO GESTOR DE SERVIÇO AVULSO', 'RESINA',
       'PARADA PARA REUNIÃO',
       'INSPEÇÃO DE PROCESSO / CONTROLE DE QUALIDADE',
       'ATRASO POR FALTA DE FERRAMENTA', 'SERVIÇOS PARA O RICARDO',
       'RESOLUÇÃO DE PROBLEMA DE MATERIAL DE TERCEIRO', 'DESCONSIDERAR',
       'CONSERTO DE GIGAS OU FERRAMENTAS', 'INFRAESTRUTURA TECNNIC',
       'SOLICITAÇÃO/ELABORAÇÃO DE PROCEDIMENTO', 'GIGA DE TESTE/GABARITO'],
      dtype=object)

In [21]:
dadosParada['cod_operador'].unique()

array([180., 121., 150., 200., 199., 202.,  36.,  93., 183., 218., 159.,
        53., 128., 156., 115., 133., 103.,  73., 210., 161., 198., 204.,
       106., 215., 171., 126., 220.,  76.,  60., 179., 175., 147., 163.,
       155., 122., 120., 189., 197., 201., 216., 151., 212., 213., 214.,
       139., 207., 172., 195., 219.,  72., 141., 209.,  46., 217.,  52.,
        69.,  77., 112.,  57.,   3.,  12.,  67., 186., 176.,  16.,  88.,
       222., 223.,  nan])

In [22]:
dadosParada['cod_servico'].unique()

array([nan,  1.,  5.,  9.,  4.,  2.,  3.,  6., 10., 14., 11., 13.])

In [23]:
dadosParada['servico'].unique()

array([nan, 'SEPARACAO', 'PRE-TESTE', 'FINALIZAÇÃO DE PRODUTO',
       'PRODUÇÃO', 'MECÂNICA', 'PRE-PRODUCAO', 'TESTE', 'ACABAMENTOS',
       'TESTE INTERMEDIARIO', 'CONFIGURACAO',
       'RECEBIMENTO DE TERCEIRIZACAO'], dtype=object)

Como podemos perceber, a maioria das colunas apresentam NaN ou NaT, isso se dá porquê a ultima linha da base de dados não é um registro e sim uma linha informando o total de horas e com os demais campos vazios, para resolver isso iremos remover a esse registro através de um drop onde o capo data for NaT

In [24]:
dadosParada = dadosParada[(~pd.isnull(dadosParada['data']))]
dadosParada = dadosParada.reset_index(drop=True)

Agora com o código acima aplicado, boa parte das colunas com NaN foram removidas, mas ainda faltam alguns detalhes

### Unindo Colunas
Existem algumas colunas atípicas onde as duas se completam, como por exemplo produto e máquina (e seus respectivos campos de código), por isso iremos uni-las e cria um único campo de descrição e código para máquina e serviço.

In [25]:
dadosParada['cod_maquina'] = dadosParada['cod_maquina'].fillna(0).astype(int)
dadosParada['cod_produto'] = dadosParada['cod_produto'].fillna(0).astype(int)

In [26]:
dadosParada['cod_produto_maquina'] = dadosParada['cod_maquina'] + dadosParada['cod_produto']
dadosParada['cod_produto_maquina'] = dadosParada['cod_produto_maquina'].astype(str)

In [27]:
dadosParada['cod_produto_maquina'].unique() # Visualizamos como esta coluna ficou

array(['14', '4387', '5', '5751', '11', '6', '15', '5461', '4545', '7512',
       '20', '6104', '4094', '6029', '6096', '5753', '7411', '7038',
       '6036', '7228', '6258', '7324', '3', '7229', '5714', '6243',
       '6735', '6459', '6975', '5545', '2', '7072', '7442', '5697',
       '7447', '7438', '7134', '2129', '7081', '0', '4746', '5477',
       '5527', '6966', '7441', '3771', '7368', '6792', '6067', '5730',
       '5957', '5478', '6276', '4008', '3979', '3920', '6555', '16',
       '5960', '5706', '4711', '25', '5707', '1', '4669', '6938', '7443',
       '6251', '6825', '4506', '6828', '5601', '4915', '7137', '6793',
       '6673', '12', '4670', '4049', '17', '6418', '3491', '4407', '23',
       '4', '7091', '4929', '5769', '5771', '2964', '3265', '6043',
       '3219', '4572', '4196', '4723', '7046', '24', '7376', '5767',
       '5920', '4648', '6420', '6015', '7106', '6905', '6937', '26',
       '6913', '6031', '6060', '7034', '2130', '6483', '522', '5546',
       '5946', '60

já unimos as colunas de código máquina com código produto, podemos agora unir as colunas maquina e serviço, pois assim como nos códigos, quando não há nada em máquina, tem valor no campo serviço, e futuramente podemos pesquisar essa coluna como um enum

In [28]:
dadosParada['servico'] = dadosParada['servico'].fillna('')
dadosParada['maquina'] = dadosParada['maquina'].fillna('')

In [29]:
dadosParada['servico_maquina'] = dadosParada['servico'] + dadosParada['maquina']

In [30]:
dadosParada['servico_maquina'].unique()

array(['ORGANIZACAO E LIMPEZA', 'SEPARACAO',
       'MONITORAMENTO DE PROCESSO INTERNO',
       'REGISTROS DE RNC DE O.P. ENCERRADA',
       'SERVIÇOS PARA OUTROS SETORES', 'TREINAMENTO', 'PRE-TESTE',
       'FINALIZAÇÃO DE PRODUTO', 'REUNIÃO DE FEEDBACK/ ALINHAMENTOS',
       'PRODUÇÃO', 'MECÂNICA', 'PRE-PRODUCAO',
       'TEMPO OCIOSO (SEM ATIVIDADE)', 'TESTE', 'EMBALAGEM', '',
       'GRAVAÇÃO DE MICROCONTROLADOR', 'ACABAMENTOS',
       'APONTAMENTO NO GESTOR DE SERVIÇO AVULSO', 'RESINA',
       'PARADA PARA REUNIÃO',
       'INSPEÇÃO DE PROCESSO / CONTROLE DE QUALIDADE',
       'ATRASO POR FALTA DE FERRAMENTA', 'SERVIÇOS PARA O RICARDO',
       'RESOLUÇÃO DE PROBLEMA DE MATERIAL DE TERCEIRO',
       'TESTE INTERMEDIARIO', 'SEPARACAOEMBALAGEM', 'DESCONSIDERAR',
       'CONSERTO DE GIGAS OU FERRAMENTAS',
       'FINALIZAÇÃO DE PRODUTOEMBALAGEM', 'CONFIGURACAO',
       'SEPARACAOTEMPO OCIOSO (SEM ATIVIDADE)', 'INFRAESTRUTURA TECNNIC',
       'PRODUÇÃOTREINAMENTO', 'SOLICITAÇÃO/ELABORA

Agora podemos excluir os campos que não são mais necessários: cod_maquina, cod_produto, maquina, cod_servico e servico

In [31]:
dadosParada = dadosParada.drop(columns=['cod_maquina', 'cod_produto', 'maquina', 'cod_servico', 'servico'])
dadosParada.head()

Unnamed: 0,data,hora_inicio,hora_termino,total_horas,numero_os,numero_op,qtde_op,cod_parada,parada,cod_operador,cod_produto_maquina,servico_maquina
0,2023-03-01,17:57:00,18:00:00,0.05,0.0,0.0,0.0,4.0,"PAUSA PARA HORÁRIO DE CAFÉ OU ALMOÇO, OU FINAL...",180.0,14,ORGANIZACAO E LIMPEZA
1,2023-03-01,17:55:00,18:00:00,0.08,0.0,0.0,0.0,4.0,"PAUSA PARA HORÁRIO DE CAFÉ OU ALMOÇO, OU FINAL...",121.0,14,ORGANIZACAO E LIMPEZA
2,2023-03-01,17:50:00,17:53:24,0.05,107378.0,19719.0,50.0,9.0,FINALIZACAO DE O.S.,150.0,4387,SEPARACAO
3,2023-03-01,17:46:00,18:00:00,0.23,0.0,0.0,0.0,9.0,FINALIZACAO DE O.S.,200.0,14,ORGANIZACAO E LIMPEZA
4,2023-03-01,17:45:00,18:00:00,0.25,0.0,0.0,0.0,9.0,FINALIZACAO DE O.S.,199.0,14,ORGANIZACAO E LIMPEZA


In [32]:
from datetime import datetime, date

In [33]:
dadosParada = dadosParada.drop(columns=['total_horas'])

In [34]:
dadosParada['total_minutos'] = 0

for i in range(len(dadosParada)):
    minute = (datetime.combine(date.today(), dadosParada['hora_termino'][i]) - datetime.combine(date.today(), dadosParada['hora_inicio'][i])).seconds / 60
    dadosParada['total_minutos'][i] = minute

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dadosParada['total_minutos'][i] = minute


In [35]:
dadosParada['total_minutos'] = dadosParada['total_minutos'].astype(int)

In [36]:
dadosParada['total_minutos'].unique()

array([  3,   5,  14,  15,  20,  22,   9,  25,   4,  30,  10,  35,  45,
        28,  52,  53,   7,  60,   2,  62,  70,  55,  72,  67,  23,  75,
        74,  11,  85,  16,   8,  12,  69, 101,  32,   1,  57, 117,  95,
        92,  47,  29,  27,  17, 120,  37,  68,  90,  50,  56,  13,  24,
         6,  58,  18,  65,  77,  79,  87,  66,  99, 105, 110, 114, 115,
       125, 130, 135, 137,  38, 138,  34,  96, 145,  73, 150, 152, 108,
        26, 165,  76,  86, 157, 112, 153,  33,  40, 100, 160,  80,  49,
        78,  21,  89, 116, 118,  61, 132,  93,  19, 104,  82,  43,  54,
        88,  42,  48,  63,  83,  39,  41,  64,  98,  31,  46,  51,  81,
       155, 142, 109,  94,  71, 113, 122, 107, 102,  44,  91, 139, 123,
       149, 164, 121,  36,  59, 124,  84, 144, 140, 171, 103, 601,   0,
        97, 111, 148, 161, 136, 158, 159, 127, 133, 175, 134, 119, 151,
       131, 129, 143, 126, 141, 163, 156, 106, 147, 362, 300, 154, 170,
       185, 308, 180, 262, 128, 146, 207])

### Formatando campos
Alguns campos ao longo deste código já foram criados e formatados, porém alguns campos "originais" precisam ser formatados, como o campo de data e o campo de código

In [37]:
def organizeData(x):
  try:
    dia = str(x)[8:10]
    mes = str(x)[5:7]
    ano = str(x)[:4]
    return dia+'/'+mes+'/'+ano
  except:
    pass

In [38]:
dataFrameData = dadosParada['data']
dataFrameData = pd.DataFrame(dataFrameData)
dataFrameData = dataFrameData.applymap(organizeData)
dadosParada['data'] = dataFrameData['data']

In [39]:
dadosParada.head()

Unnamed: 0,data,hora_inicio,hora_termino,numero_os,numero_op,qtde_op,cod_parada,parada,cod_operador,cod_produto_maquina,servico_maquina,total_minutos
0,01/03/2023,17:57:00,18:00:00,0.0,0.0,0.0,4.0,"PAUSA PARA HORÁRIO DE CAFÉ OU ALMOÇO, OU FINAL...",180.0,14,ORGANIZACAO E LIMPEZA,3
1,01/03/2023,17:55:00,18:00:00,0.0,0.0,0.0,4.0,"PAUSA PARA HORÁRIO DE CAFÉ OU ALMOÇO, OU FINAL...",121.0,14,ORGANIZACAO E LIMPEZA,5
2,01/03/2023,17:50:00,17:53:24,107378.0,19719.0,50.0,9.0,FINALIZACAO DE O.S.,150.0,4387,SEPARACAO,3
3,01/03/2023,17:46:00,18:00:00,0.0,0.0,0.0,9.0,FINALIZACAO DE O.S.,200.0,14,ORGANIZACAO E LIMPEZA,14
4,01/03/2023,17:45:00,18:00:00,0.0,0.0,0.0,9.0,FINALIZACAO DE O.S.,199.0,14,ORGANIZACAO E LIMPEZA,15


In [40]:
dadosParada['numero_os'] = dadosParada['numero_os'].astype(int)
dadosParada['numero_op'] = dadosParada['numero_op'].astype(int)
dadosParada['qtde_op'] = dadosParada['qtde_op'].astype(int)
dadosParada['cod_operador'] = dadosParada['cod_operador'].astype(int)
dadosParada['cod_parada'] = dadosParada['cod_parada'].astype(int)

In [41]:
dadosParada = dadosParada[dadosParada['parada'] != 'PAUSA PARA HORÁRIO DE CAFÉ OU ALMOÇO, OU FINAL EXP']
dadosParada = dadosParada[dadosParada['parada'] != 'FINALIZACAO DE O.S.']
dadosParada = dadosParada[dadosParada['parada'] != 'ALTERAÇÃO DO PROJETO DO PRODUTO']
dadosParada = dadosParada[~dadosParada['parada'].isnull()]

dadosParada.count()

data                   3765
hora_inicio            3765
hora_termino           3765
numero_os              3765
numero_op              3765
qtde_op                3765
cod_parada             3765
parada                 3765
cod_operador           3765
cod_produto_maquina    3765
servico_maquina        3765
total_minutos          3765
dtype: int64

In [42]:
dadosParada.to_csv('../data/dados_limpos.csv', index=False)