# **Contextualização**

Este dataset contém informações simuladas relacionadas a defeitos de fabricação observados durante os processos de controle de qualidade. Inclui informações como tipo de defeito, data de detecção, localização dentro do produto, nível de gravidade, método de inspeção utilizado e custos de reparo. Este conjunto de dados pode ser usado para analisar padrões de defeitos, melhorar os processos de controle de qualidade e avaliar o impacto dos defeitos na qualidade do produto e nos custos de produção.


# **Estrutura do dataset**

*   defect_id: Identificador exclusivo para cada defeito.
*   product_id: Identificador do produto associado ao defeito.
*   defect_type: Tipo ou categoria do defeito (por exemplo, cosmético, funcional, estrutural).
*   defect_description: Descrição do defeito.
*   defect_date: Data em que o defeito foi detectado.
*   defect_location: Local dentro do produto onde o defeito foi encontrado (por exemplo, superfície, componente).
*   gravidade: Nível de gravidade do defeito (por exemplo, menor, moderado, crítico).
*   inspection_method: Método usado para detectar o defeito (por exemplo, inspeção visual, teste automatizado).
*   repair_action: Ação tomada para reparar ou resolver o defeito.
*   repair_cost: Custo incorrido para reparar o defeito (em moeda local).

# **Preparação do ambiente**

## Importação das bibliotecas e carregamento dos dados

In [None]:
# Manipulação dos dados
import pandas as pd
import numpy as np
import datetime as dt

# Visualização
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Download latest version
import kagglehub
path = kagglehub.dataset_download("fahmidachowdhury/manufacturing-defects")

df = pd.read_csv(path + "/defects_data.csv")

Downloading from https://www.kaggle.com/api/v1/datasets/download/fahmidachowdhury/manufacturing-defects?dataset_version_number=1...


100%|██████████| 13.0k/13.0k [00:00<00:00, 18.1MB/s]

Extracting files...





## Qualidade dos dados

In [None]:
print(f"Dataset possui {df.shape[0]} linhas e {df.shape[1]} colunas.")
df.info()

Dataset possui 1000 linhas e 8 colunas.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   defect_id          1000 non-null   int64  
 1   product_id         1000 non-null   int64  
 2   defect_type        1000 non-null   object 
 3   defect_date        1000 non-null   object 
 4   defect_location    1000 non-null   object 
 5   severity           1000 non-null   object 
 6   inspection_method  1000 non-null   object 
 7   repair_cost        1000 non-null   float64
dtypes: float64(1), int64(2), object(5)
memory usage: 62.6+ KB


In [None]:
df.head()

Unnamed: 0,defect_id,product_id,defect_type,defect_date,defect_location,severity,inspection_method,repair_cost
0,1,15,Structural,6/6/2024,Component,Minor,Visual Inspection,245.47
1,2,6,Functional,4/26/2024,Component,Minor,Visual Inspection,26.87
2,3,84,Structural,2/15/2024,Internal,Minor,Automated Testing,835.81
3,4,10,Functional,3/28/2024,Internal,Critical,Automated Testing,444.47
4,5,14,Cosmetic,4/26/2024,Component,Minor,Manual Testing,823.64


## Transformação

In [None]:
# Conversão de defect_date para datetime

df.defect_date = pd.to_datetime(df.defect_date)
df['defect_month'] = df['defect_date'].dt.strftime('%Y-%m')
df.head()

Unnamed: 0,defect_id,product_id,defect_type,defect_date,defect_location,severity,inspection_method,repair_cost,defect_month
0,1,15,Structural,2024-06-06,Component,Minor,Visual Inspection,245.47,2024-06
1,2,6,Functional,2024-04-26,Component,Minor,Visual Inspection,26.87,2024-04
2,3,84,Structural,2024-02-15,Internal,Minor,Automated Testing,835.81,2024-02
3,4,10,Functional,2024-03-28,Internal,Critical,Automated Testing,444.47,2024-03
4,5,14,Cosmetic,2024-04-26,Component,Minor,Manual Testing,823.64,2024-04


In [None]:
# Dicionário de renomeação
novos_nomes = {
    'defect_id': 'id_defeito',
    'product_id': 'id_produto',
    'defect_type': 'tipo_defeito',
    'defect_date': 'data_defeito',
    'defect_location': 'local_defeito',
    'severity': 'gravidade',
    'inspection_method': 'metodo_inspecao',
    'repair_cost': 'custo_reparo',
    'defect_month': 'ano_mes'
}
df.rename(columns=novos_nomes, inplace=True)
df.head()

Unnamed: 0,id_defeito,id_produto,tipo_defeito,data_defeito,local_defeito,gravidade,metodo_inspecao,custo_reparo,ano_mes
0,1,15,Structural,2024-06-06,Component,Minor,Visual Inspection,245.47,2024-06
1,2,6,Functional,2024-04-26,Component,Minor,Visual Inspection,26.87,2024-04
2,3,84,Structural,2024-02-15,Internal,Minor,Automated Testing,835.81,2024-02
3,4,10,Functional,2024-03-28,Internal,Critical,Automated Testing,444.47,2024-03
4,5,14,Cosmetic,2024-04-26,Component,Minor,Manual Testing,823.64,2024-04


In [None]:
# Renomeação dos valores nas colunas categóricas
tipo_defeito = {
    'Cosmetic': 'Cosmético',
    'Functional': 'Funcional',
    'Structural': 'Estrutural'
}
df['tipo_defeito'] = df['tipo_defeito'].replace(tipo_defeito)

local_defeito = {
    'Surface': 'Superfície',
    'Component': 'Componente',
    'Internal': 'Interno'
}
df['local_defeito'] = df['local_defeito'].replace(local_defeito)

gravidade = {
    'Minor': 'Leve',
    'Moderate': 'Moderado',
    'Critical': 'Crítico'
}
df['gravidade'] = df['gravidade'].replace(gravidade)


metodo_inspecao = {
    'Visual Inspection': 'Inspeção Visual',
    'Automated Testing': 'Teste Automatizado',
    'Manual Testing': 'Teste Manual'
}
df['metodo_inspecao'] = df['metodo_inspecao'].replace(metodo_inspecao)
df.head()

Unnamed: 0,id_defeito,id_produto,tipo_defeito,data_defeito,local_defeito,gravidade,metodo_inspecao,custo_reparo,ano_mes
0,1,15,Estrutural,2024-06-06,Componente,Leve,Inspeção Visual,245.47,2024-06
1,2,6,Funcional,2024-04-26,Componente,Leve,Inspeção Visual,26.87,2024-04
2,3,84,Estrutural,2024-02-15,Interno,Leve,Teste Automatizado,835.81,2024-02
3,4,10,Funcional,2024-03-28,Interno,Crítico,Teste Automatizado,444.47,2024-03
4,5,14,Cosmético,2024-04-26,Componente,Leve,Teste Manual,823.64,2024-04


# **Análise dos Dados**

In [None]:
id_produto = df.groupby("id_produto").agg(defect_count = ('id_produto', 'count'), total_custo_reparo = ('custo_reparo', 'sum')).sort_values(by = 'defect_count', ascending = False).reset_index()
top_10 = id_produto.sort_values(by = 'defect_count', ascending=False).head(10).copy()
top_10

Unnamed: 0,id_produto,defect_count,total_custo_reparo
0,81,20,11740.64
1,63,20,9174.06
2,97,19,8405.84
3,56,18,9916.3
4,4,16,6495.45
5,10,16,10084.92
6,92,16,7588.84
7,74,15,8460.54
8,6,15,8733.81
9,45,15,9532.36


In [None]:
custo_reparo_mes = df.groupby('ano_mes').agg(total_custo_reparo = ('custo_reparo', 'sum')).reset_index()
custo_reparo_mes

Unnamed: 0,ano_mes,total_custo_reparo
0,2024-01,95978.43
1,2024-02,83259.84
2,2024-03,91806.75
3,2024-04,76153.46
4,2024-05,83841.5
5,2024-06,76587.17


In [None]:
tipo_defeito = df.groupby(['tipo_defeito', 'local_defeito', 'gravidade']).agg(defect_count = ('id_defeito', 'count'), total_custo_reparo = ('custo_reparo', 'sum')).reset_index()
tipo_defeito

Unnamed: 0,tipo_defeito,local_defeito,gravidade,defect_count,total_custo_reparo
0,Cosmético,Componente,Crítico,34,17182.09
1,Cosmético,Componente,Leve,35,22658.33
2,Cosmético,Componente,Moderado,28,16576.5
3,Cosmético,Interno,Crítico,35,14568.13
4,Cosmético,Interno,Leve,32,15787.32
5,Cosmético,Interno,Moderado,28,16032.0
6,Cosmético,Superfície,Crítico,38,18425.21
7,Cosmético,Superfície,Leve,39,19181.07
8,Cosmético,Superfície,Moderado,40,18387.07
9,Estrutural,Componente,Crítico,30,15837.94


In [24]:
fig = px.bar(top_10, x=top_10['id_produto'].astype(str), y='defect_count',
             title='Top 10: Número de Defeitos',
             labels={'x': 'ID Produto', 'defect_count': 'Número de Defeitos'},
             color='defect_count', color_continuous_scale='viridis',
             height=400, width=600)
fig.update_layout(xaxis={'categoryorder':'total descending'})
fig.show()

In [None]:
fig = px.area(custo_reparo_mes, x='ano_mes', y='total_custo_reparo',
             title='Custo de Reparo por Ano/Mês',
             labels={'ano_mes': 'Mês/Ano', 'total_custo_reparo': 'Custo'},
             color_discrete_sequence=px.colors.sequential.Viridis,
             height=400, width=600)
fig.update_layout(yaxis={'categoryorder':'total ascending'})
fig.show()

In [None]:
fig = px.bar(tipo_defeito, x='tipo_defeito', y='defect_count', color='local_defeito',
              title='Tipo de Defeito x Frequência',
              labels={'tipo_defeito': 'Tipo de Defeito', 'defect_count': 'Frequência', 'local_defeito': 'Local do Defeito'},
              height=400, width=600, color_discrete_sequence=px.colors.sequential.Viridis)
fig.show()

In [None]:
fig = px.bar(tipo_defeito, x='gravidade', y='defect_count', color='local_defeito',
              title='Severidade x Frequência',
              labels={'gravidade': 'Severidade', 'defect_count': 'Frequência', 'local_defeito': 'Local do Defeito'},
              height=400, width=600, color_discrete_sequence=px.colors.sequential.Viridis)
fig.show()