---
# Normalização de dados
---

### Contextualizando

* A essência fundamental da modelagem de dados reside na otimização de procedimentos. Isso implica que há sempre espaço para aprimorar o que já foi realizado.

* Uma vez que tenhamos elaborado o Diagrama Entidade-Relacionamento (DER), podemos simplesmente implementá-lo em um Sistema de Gerenciamento de Banco de Dados (SGBD)?

* A redundância é, frequentemente, o principal desafio em bancos de dados.

* O dano mais crítico causado pela redundância é a repetição da mesma informação em diversas tabelas, o que, além de criar duplicidade, pode levar a erros em relatórios.
---

![image.png](attachment:image.png)

---

![image.png](attachment:image.png)

---

![image.png](attachment:image.png)

---

![image.png](attachment:image.png)

---

![image.png](attachment:image.png)

---

### Ponto de Partida

* Olá, estudante! Em um projeto de banco de dados, é imprescindível seguir um princípio fundamental:
    - Evitar a combinação de informações distintas dentro de uma única tabela.
        - Deve-se combater com firmeza dois elementos:
            - a redundância de dados e 
            - a discrepância de informações.
        - Para compreender tais diretivas, nesta seção, exploraremos os conceitos relacionados à normalização de dados e à dependência funcional.
    - Um especialista em tecnologia da informação deve estar familiarizado com eles e, além disso, deve saber aplicá-los ativamente ao criar estruturas de bancos de dados.

- Portanto, é crucial que você tenha uma compreensão abrangente dos diversos setores de mercado.
- É também certo que as necessidades do cliente nem sempre estão claramente definidas, e que as entidades não são obrigatoriamente estabelecidas por meio de um estudo de caso completo.
- Nesse contexto, você, como analista, precisará visitar a empresa em questão e conduzir entrevistas com vários membros da equipe.
- Além disso, é de grande importância coletar cópias de documentos em uso na empresa, tais como faturas, pedidos de compra, registros de estoque, formulários de admissão de funcionários, entre outros.
- Esses documentos contêm informações valiosas que frequentemente passam despercebidas, inclusive pelo próprio cliente que solicita o desenvolvimento de software.
- É preciso analisar a fundo, assim, o conceito de normalização de dados e seus objetivos em modelagem de dados. Bons estudos!

---

# Vamos Começar!
* A essência da modelagem de dados reside na otimização de procedimentos.
* Esse fato implica que há sempre espaço para aprimorar o que já foi realizado.
* Mas uma vez que tenhamos elaborado o diagrama entidade-relacionamento (DER), podemos simplesmente implementá-lo em um sistema de gerenciamento de banco de dados (SGBD)? Não.
* A abordagem correta é revisá-lo minuciosamente, identificar imperfeições e aprimorar o projeto, antecipando eventuais problemas.

* O principal desafio em bancos de dados é, frequentemente, a redundância, já que pode acarretar consequências significativas que podem passar despercebidas até que o banco de dados esteja em uso pela organização.
* O dano mais crítico causado pela redundância é a repetição da mesma informação em diversas tabelas, o que, além de criar duplicidade, pode levar a erros em relatórios.

* Segundo Alves (2020), a meta mais importante a ser alcançada em um projeto de banco de dados é obter um resultado altamente preciso na representação dos dados, incluindo os relacionamentos entre eles e as restrições que devem ser obedecidas.
* Para atingir esse resultado, além da modelagem entidade-relacionamento, podemos empregar uma técnica chamada normalização de dados.
* Através dela, realizamos uma análise minuciosa dos relacionamentos entre os atributos dentro de uma entidade (e não entre entidades), aplicando uma série de testes conhecidos como formas normais.

* O autor (2020) ainda destaca que a normalização, que pode ser aplicada em qualquer fase do projeto de banco de dados, tem como objetivo criar um conjunto de entidades que satisfaçam os requisitos do projeto, respeitando as seguintes características:
    
    * Mínimo de atributos nas entidades.
    * Atributos na entidade com relações estreitas.
    * Redução máxima de redundância de dados, o que implica na eliminação de atributos que desempenham a mesma função de armazenar informações idênticas, com exceção das chaves estrangeiras.

* Já para Machado (2020), o propósito da normalização é evitar as potenciais falhas no projeto do banco de dados e eliminar a "mescla de tópicos" e as redundâncias de informações desnecessárias.
* Uma diretriz fundamental durante o planejamento de um banco de dados orientado ao modelo relacional é evitar a combinação de diferentes tópicos em uma única tabela.
* O procedimento de normalização impõe um conjunto de regulamentos às tabelas de um banco de dados com o objetivo de avaliar se estão devidamente estruturadas.
* Embora existam cinco formas normais, na prática, costumamos aplicar principalmente três delas.
* A criação das tabelas de um banco de dados relacional é derivada de um modelo entidade-relacionamento (MER), e frequentemente, durante essa transição, surgem desafios relacionados ao desempenho, à integridade e à manutenção dos dados.

* Normalmente, após a implementação das formas normais, algumas tabelas acabam sendo subdivididas em duas ou mais, resultando em um número maior do que inicialmente previsto.
* Esse processo simplifica os atributos de cada tabela e contribui significativamente para a estabilidade do modelo de dados, reduzindo as demandas de manutenção de forma considerável.

* Alves (2020) destaca um conceito importante para se considerar no processo de normalização de dados: a dependência funcional.
* A dependência funcional possui grande relevância em bancos de dados relacionais, estabelecendo uma restrição entre dois conjuntos de atributos pertencentes à mesma entidade ou relação.
* Ela descreve a relação entre esses atributos, ou seja, em que medida um atributo depende de outro para a sua existência.

* A dependência funcional é frequentemente representada pela notação X → Y, em que X e Y designam subconjuntos de atributos dentro de uma relação específica.
* Essa notação estabelece uma restrição que sugere que um elemento Y em um registro depende de um valor presente no conjunto X, ou seja, é por ele determinado.
* De forma recíproca, os valores em X exercem influência exclusiva sobre os valores em Y. Em resumo, Y é funcionalmente dependente de X.
---

> Para ilustrar esse cenário, considere o exemplo de uma relação de livros cujo esquema relacional é o seguinte:

```
LIVROS(CodigoISBN, Titulo, Area, Formato, TipoEncadernacao, NumeroPaginas, Peso, ValorCusto, ValorVenda, NumeroEdicao, AnoEdicao, NumeroReimpressao, NumeroContrato, EstoqueMinimo, EstoqueMaximo, EstoqueAtual, DataUltimaEntrada)
```

* Neste exemplo, o valor do atributo Titulo pode ser recuperado apenas sabendo-se o valor do atributo CodigoISBN.
* Dessa forma, o atributo CodigoISBN determina o valor único de Titulo, ou seja, não temos títulos de livros diferentes com o mesmo código ISBN.
* Tecnicamente falando, Título é dependente funcional de CodigoISBN, como é possível ver na Figura 1.

![Figura 1](attachment:image.png)

* O atributo do qual parte a seta nesse tipo de diagrama é denominado determinante.
* Seguindo o raciocínio, Alves (2020) destaca que, como cada livro está vinculado a uma área, o atributo CodigoISBN também pode determinar o valor do atributo Area.
* Porém, neste caso, se procurarmos na relação por todas as tuplas que possuem o mesmo valor no atributo Area, encontraremos várias instâncias, uma vez que podemos ter vários livros pertencentes à mesma área.
* Em outras palavras, CodigoISBN determina um único valor para Area, mas Area pode determinar mais de um valor para CodigoISBN.
* O relacionamento entre CodigoISBN e Area é de 1:1 (um para um), enquanto o oposto, entre Area para CodigoISBN, é de 1:M (um para muitos), como vemos na figura a seguir.

![Figura 2](attachment:image-2.png)

* Podemos categorizar a dependência funcional em três tipos distintos:
    * total (ou completa);
    * parcial;
    * transitiva.
        * Na primeira categoria, a dependência existe somente se a chave primária, composta por diversos atributos, for capaz de determinar de forma única um atributo ou um conjunto de atributos.
        * No nosso exemplo, o atributo CodigoISBN é a chave primária que determina o valor de todos os outros atributos na tupla.

* Quando um atributo ou conjunto de atributos depende apenas de parte dos valores da chave primária, nos deparamos com uma dependência parcial.
* Em relação à dependência transitiva, ela ocorre quando um atributo ou conjunto de atributos depende de outro atributo ou conjunto de atributos que não fazem parte da chave primária.

* É fundamental observar que apenas o valor do atributo CodigoISBN é necessário para determinar o título do livro, caracterizando, assim, uma dependência parcial. Agora, consideremos uma relação que abrange os itens de um pedido de venda com o seguinte esquema:

```
ITENS_PEDIDO(NumeroPedido,CodigoISBN,Quantidade,ValorUnitario,ValorTotal,Desconto)
```

* Neste caso, para sabermos a quantidade referente a um determinado livro dentro do pedido, não basta conhecermos apenas o número desse pedido.
* É necessário que também tenhamos o código ISBN do livro.
* Isso significa que o atributo Quantidade é dependente funcional da combinação de dois outros atributos, a saber, o NumeroPedido e o CodigoISBN.

```
{NumeroPedido,CodigoISBN} → {Quantidade}
```

* Por fim, Alves (2020) lembra que, neste caso, temos uma dependência funcional total, já que são necessários os dois atributos para identificar univocamente o valor de outro.

* Em síntese, a normalização de tabelas constitui um conjunto de procedimentos destinados a identificar falhas em um projeto de banco de dados, detectando inconsistências que podem envolver dados duplicados ou dependências funcionais mal definidas ou mal organizadas.
* A ação de normalização consiste em decompor uma tabela em tabelas de menor complexidade, reduzindo gradualmente o número de redundâncias e dependências funcionais.
* É importante notar que o objetivo primordial da normalização não é a completa eliminação das inconsistências, mas sim o seu controle.
* Nesse sentido, a identificação das dependências funcionais nas tabelas representa o primeiro passo para reconhecer a necessidade de normalizar as tabelas em um banco de dados.
---

> Nesta aula, aprendemos que existe um outro processo de verificação de qualidade da modelagem de dados: a normalização das tabelas.
* Como desafio, você, enquanto proprietário de uma empresa, será responsável por atender às necessidades de um clube de futebol.
* Nesse contexto, será atribuída a tarefa de automatizar um formulário de registro de jogos que, até o momento, era preenchido manualmente.
* A meta é informatizar esse formulário e armazenar as informações em um banco de dados.

* Para solucionar esse problema, é crucial, inicialmente, analisar minuciosamente as informações fornecidas pelo formulário.
* Mas como identificar os campos das tabelas?
* Uma abordagem consiste em elaborar um inventário de todas as informações que podem ser inseridas, incluindo itens como número do jogo, data da partida, nome do oponente, local do jogo, entre outros.
* E no que se refere às tabelas, como podemos identificá-las?
* Nesse ponto, a intuição desempenha um papel relevante (considerando que ainda não discutimos as técnicas de normalização).
* Alguns exemplos de tabelas a serem consideradas incluem jogadores, cidades, estados etc.
* Utilize a teoria aprendida nesta aula e reflita sobre o caso.
* Lembre-se que a prática leva à perfeição; então, vamos exercitar?
---

#### Referências
ALVES, W. P. Banco de dados: teoria e desenvolvimento. 2. ed. São Paulo: Érica, 2020.

ELMASRI, R.; NAVATHE, S. B. Sistemas de banco de dados. 7. ed. São Paulo: Pearson Education do Brasil, 2018.

MACHADO, F. N. R. Banco de dados: projeto e implementação. 4. ed. São Paulo: Érica, 2020.

SILBERSCHATZ, A.; KORTH, H.; SUDARSHAN, S. Sistema de banco de dados. 7. ed. Rio de Janeiro: LTC, 2020.

SORDI, J. O. de. Modelagem de dados: estudos de casos abrangentes da concepção lógica à implementação. 1. ed. São Paulo: Érica, 2019.

---