# 01 - Exploratory Analysis

###### Here, histograms, boxplots and density graphs are constructed, taking into account the sum of hours reported to visually analyze the asymmetry and dispersion of the data set in relation to the type of product and department. The results obtained here influence the analyses carried out in subsequent stages.
---

#### Loading Packages and Database
----

In [27]:
import plotly.io as pio
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
# import fast_dummies
from sklearn.preprocessing import OneHotEncoder
from scipy import stats
from scipy.stats import triang
import os
import sys
from pathlib import Path

In [28]:
# Adicionar o diretório 'modules_py' ao sys.path
modules_path = Path("modules_py").resolve()
sys.path.append(str(modules_path))

from data_cleaning import DataCleaning_MyData, DataCleaning_GroupData, DataCleaning_frequents, DataCleaning_dummies

try:
    # Executar a função principal de limpeza de dados
    my_data = DataCleaning_MyData()
    mais_frequentes = DataCleaning_frequents()
    
    print("Dados processados com sucesso!")
    
    # Exibir os primeiros registros do resultado
    display(mais_frequentes)

# Mostrar o erro caso não execute
except Exception as e:
    print(f"Ocorreu um erro: {e}")

Dados processados com sucesso!


Unnamed: 0,HorasUnit,Qtd,Poder.Z,Poder.Lin,Depart,Prod.Nome,Item.Cod
0,4030.0,1.0,0.0,,CONFORMACAO,CRCHRSG,1123.0
1,66.0,1.0,0.0,,CONFORMACAO,CRCHRSG,1124.0
2,2970.0,1.0,0.0,,CONFORMACAO,CRCHRSG,1132.0
3,13513.5,2.0,156.0,66.0,CONFORMACAO,CQOG,1132.0
4,48.0,1.0,59.0,46.0,CONFORMACAO,CRCHRSG,1124.0
...,...,...,...,...,...,...,...
2433,19023.0,1.0,0.0,,MONTAGEM,CRQ,1152.0
2434,23736.0,1.0,0.0,,SOLDA,CRQ,1132.0
2435,25853.0,1.0,0.0,,CONFORMACAO,CRQ,1132.0
2436,34050.0,1.0,0.0,,MONTAGEM,CRQ,1122.0


#### Boxplot Duração X Produto (itens mais frequentes)
---

In [29]:
pio.renderers.default = "plotly_mimetype"


fig = px.box(
    data_frame=mais_frequentes,
    x="Prod.Nome",  # Nome do produto
    y="HorasUnit",  # Duração
    color="Depart",  # Departamento (usado para agrupar por cor)
    title="Boxplot Duração X Produto,separado por departamento, considerando apenas itens mais frequentes",  # Título do gráfico
    labels={"Prod.Nome": "Produto", "HorasUnit": "Duração (Horas Unitárias)"},  # Rótulos personalizados
)

# Ajustando o layout
fig.update_layout(
    boxmode="group",  # Agrupamento dos boxplots
    yaxis=dict(title="Duração"),  # Título do eixo Y
)

# Mostrando o gráfico
fig.show()







#### Histograma Horas X Departamento
----

In [30]:
# Criando o histograma com facetas
fig = px.histogram(
    my_data,
    x="SomaDeHorasApontadasUnitario",  # Eixo x com os valores da coluna
    color="Andrea_DEPARTAMENTO.Descricao",  # Cor baseada no departamento
    facet_col="Andrea_DEPARTAMENTO.Descricao",  # Facetando os gráficos com base no departamento
    title="Histograma de Frequência de Horas por Departamento",  # Título do gráfico
    labels={"SomaDeHorasApontadasUnitario": "Horas Unitárias", "Andrea_DEPARTAMENTO.Descricao": ""},  # Rótulos personalizados
    facet_col_wrap=3,  # Ajustando o número de facetas por linha
)

# Ajustando o layout para uma escala mais horizontal
fig.update_layout(
    width=800,  # Largura do gráfico
    height=600,  # Altura do gráfico
    #xaxis_title="Horas Unitárias",  # Título do eixo X
    #yaxis_title="Frequência",  # Título do eixo Y
)

# Mostrando o gráfico
fig.show()





#### Histograma Horas X Tipo de Produto
-----

In [31]:
# Criando o histograma com facetas
fig = px.histogram(
    my_data,
    x="SomaDeHorasApontadasUnitario",  # Eixo x com os valores da coluna
    color="TipodeProduto",  # Cor baseada no departamento
    facet_col="TipodeProduto",  # Facetando os gráficos com base no departamento
    title="Histograma de Frequência de Horas por Departamento",  # Título do gráfico
    labels={"SomaDeHorasApontadasUnitario": "Horas Unitárias", "TipodeProduto": ""},  # Rótulos personalizados
    facet_col_wrap=3,  # Ajustando o número de facetas por linha
)

# Ajustando o layout para uma escala mais horizontal
fig.update_layout(
    width=800,  # Largura do gráfico
    height=600,  # Altura do gráfico
    #xaxis_title="Horas Unitárias",  # Título do eixo X
    #yaxis_title="Frequência",  # Título do eixo Y
)

# Mostrando o gráfico
fig.show()





##### Observa-se que a caldeira é o produto com a maior frequência de horas 