# UTILIZAÇÃO DE REDES NEURAIS ARTIFICIAIS PARA CLASSIFICAÇÃO DE FARINHA DE TRIGO EM UMA INDÚSTRIA DE BISCOITOS E MASSAS

### DISSERTAÇÃO DE MESTRADO


## Definição do Problema

Uma indústria de biscoitos e massas realiza a classificação de farinha de trigo para a utilização na sua produção, com base nas análises realizadas em seu laboratório físico-analítico.

### Qual é o problema que queremos resolver?

Realizar a classificação das farinhas para cada produto, retornando se ela está aprovada, aprovada condicional ou reprovada, de uma forma mais eficiente que a atual obtida na empresa.

## Métricas

Afinal, como saberemos que a solução encontrada está funcionando? Mais do que melhorar as técnicas de machine learning, precisamos definir quais serão as métricas de negócio/produto que iremos afetar. É importante escolher dois tipos de métricas:

- Primária
- Secundárias

Essas métricas devem ser usadas para definir o sucesso/fracasso do projeto
durante o teste em produção (por exemplo, teste A/B).

### Métrica Primária

Essa é a métrica principal do projeto, aquela que será medida em todos os estágios possíveis, principalmente durante o monitoramento em produção. No caso deste trabalho, o <b> percentual de classificações corretas de farinha de trigo para cada produto </b> será levada como a principal métrica.
Tudo o que faremos no projeto é voltado a melhorar essa métrica. Mas precisamos tomar cuidado, pois o fato de estarmos tentando afetá-la, a torna menos confiável.
A “Lei de Goodhart” diz: “Quando uma métrica se torna um alvo, ela deixa de ser uma boa métrica”. Por isso precisamos de…

### Métricas Secundárias

Não adianta melhorar o número de classificações corretas se o tempo para obter esse resultado é muito superior ao obtido hoje.
Por isso é importante, na maioria dos projetos de machine learning, ter várias métricas secundárias que tratem de monitorar outros passos e processos afetados por nossa solução.
Nosso objetivo não deve ser otimizar essas métricas diretamente ou tornaremos essas novas métricas primárias.
Devemos monitorar e entender o efeito de nossa solução. Na maioria dos casos o ideal é que essas métricas se mantenham no mesmo nível de antes da solução, pois o mais importante é monitorar a degradação. Se essas métricas secundárias melhorarem, podemos considerar como um bônus.
Não existem métricas secundárias específicas. Elas são qualquer métrica que seja importante para o processo e não seja a primária.
Então, além da nossa métrica primária, podemos ter:

- percentual de farinhas aprovadas
- percentual de farinhas aprovadas condicionalmente
- percentual de farinhas reprovadas
- tempo para obtenção dos resultados

## Preparação dos Dados

Os dados para este estudo foram obtidos do banco de dados do ERP da empresa, portanto, os mesmos vieram em sua forma bruta, sem nenhum tipo de tratamento, mas exatamente como são obtidos e utilizados no processo diário de decisão. No quadro abaixo está disposto o <i> data dictionary </i> (do inglês, dicionário de dados), ou seja, indica quais as variáveis disponíveis no banco de dados e suas características.

<table>
    <tr> <th>Variável</th> <th>Descrição</th> <th>Tipo de dado</th> </tr>
    <tr> 
        <td><center>Empresa</center></td>
        <td>Fornecedor da farinha de trigo</td>
        <td>Nome do fornecedor</td> 
    </tr>
    <tr>
        <td><center>DU</center></td>
        <td>Dias entre a fabricação da farinha de trigo<p>e sua utilização no processo produtivo</p></td>
        <td>dias</td> 
    </tr>
    <tr>
        <td><center>UM</center></td>
        <td>Percentual de umidade da farinha de trigo</td>
        <td>%</td> 
    </tr>
    <tr>
        <td><center>P</center></td>
        <td>Tenacidade</td>
        <td>mm</td> 
    </tr>
    <tr>
        <td><center>L</center></td>
        <td>Extensibilidade</td>
        <td>mm</td> 
    </tr>
    <tr>
        <td><center>P/L</center></td>
        <td>Relação tenacidade/extensibilidade</td>
        <td>sem unidade</td> 
    </tr>
    <tr>
        <td><center>W</center></td>
        <td>Força de glúten</td>
        <td>10<sup>-4</sup> J</td> 
    </tr>
    <tr>
        <td><center>Ie</center></td>
        <td>Índice de elasticidade</td>
        <td>%</td> 
    </tr>
    <tr>
        <td><center>FN</center></td>
        <td><i>Falling Number</i> ou número de queda</td>
        <td>s</td> 
    </tr>
    <tr>
        <td><center>GU</center></td>
        <td>Glúten úmido</td>
        <td>g</td> 
    </tr>
    <tr>
        <td><center>GS</center></td>
        <td>Glúten seco</td>
        <td>g</td>
    </tr>
    <tr>
        <td><center>Index</center></td>
        <td>Teor de glúten</td>
        <td>%</td>
    </tr>
    <tr>
        <td><center>Bu</center></td>
        <td>Cinzas em base úmida</td>
        <td>g</td>
    </tr>
    <tr>
        <td><center>Bs</center></td>
        <td>Cinzas em base seca</td>
        <td>g</td>
    </tr>
    <tr>
        <td><center>L*</center></td>
        <td>Luminosidade</td>
        <td>escala de zero (preto) a 100 (branco)</td> 
    </tr>
    <tr>
        <td><center>a*</center></td>
        <td>Coordenada de cromaticidade a*</td>
        <td>varia de a* positivo (tonalidade vermelha)<p>até a* negativo (tonalidade verde)</p></td> 
    </tr>
    <tr>
        <td><center>b*</center></td>
        <td>Coordenada de cromaticidade b*</td>
        <td>varia de b* positivo (tonalidade amarela)<p>até b* negativo (tonalidade azul)</p></td> 
    </tr>
    <tr>
        <td><center>Produto</center></td>
        <td></td>
        <td></td> 
    </tr>
    <tr>
        <td><center>Parecer</center></td>
        <td>Situação de aprovação da farinha de trigo</td>
        <td>Aprovado, Aprovado condicional ou Reprovado</td>
    </tr>
</table>
Quadro 1 - Dicionário de dados.
Fonte: Autoria própria, 2020