<img src="logo.png">

# C02. Normalización de bases de datos

La normalización es un proceso de simplificación de datos. Se trata de un concepto fundamental en el diseño de bases de datos relacionales. Se trata de un proceso cuyo objetivo es optimizar una base de datos en cuanto a espacio y orden, haciendo bases de datos más eficientes pero sin perder información.

Buscaremos almacenar en menor espacio, eliminar registros repetidos, elminación de errores lógicos y protección de la integridad de la base de datos.

Las reglas que sigue el proceso de normalización se clasifica en seis niveles:

* Primera forma normal
* Segunda forma normal
* Tercera forma normal
* Forma normal Boyce Codd
* Cuarta forma normal
* Quinta forma normal



## Primera forma normal (1FN)

Las reglas de la **1FN** son:

**1FN_1)** No necesariamente debe haber orden de arriba hacia abajo

**1FN_2)** No deben haber filas duplicadas

**1FN_3)** Todos los datos deben ser de tipo **atómicos**.

**1FN_4)** Las tablas deben tener clave primaria

**Observación: 1FN_3 es la más importante.**


Supongamos que tenemos la siguiente tabla:

|  |  ||||||||
|--|--|--|--|--|--|--|--|--|
|Entidad|Nombre de la entidad|UPM|Vivienda|Hogar|Renglon|Tipo_Delito|Descripcion_delito|
|02|Baja California|02|01|02|01|1|Robo de autopartes|
|02|Baja California|02|01|02|01|1|Robo de autopartes|
|01|Aguascalientes|18|02|01|03|3|Robo en transporte publico|
|32|Zacatecas|12|03|05|04|14,15|Desaparición forzada, secuestro|
|09|CDMX|15|04|01|02|4|Violencia verbal|

Vemos que hay registros repetidos, lo cual viola 1FN_2. Además no hay llave primaria y la regla mas importante no se cumple.

Para solucionar el primer problema, simplemente eliminamos el registro repetido:

|  |  ||||||||
|--|--|--|--|--|--|--|--|--|
|Entidad|Nombre de la entidad|UPM|Vivienda|Hogar|Renglon|Tipo_Delito|Descripcion_delito|
|02|Baja California|02|01|02|01|1|Robo de autopartes|
|01|Aguascalientes|18|02|01|03|3|Robo en transporte publico|
|32|Zacatecas|12|03|05|04|14,15|Desaparición forzada y secuestro|
|09|CDMX|15|04|01|02|4|Violencia verbal|

Para solucionar el segundo y más importante problema, separamos la información en dos tablas. En la primera no incluiremos el campo *Tipo_delito* y nos llevamos la información fundamental. Sin embargo, al hacer eso se corre el peligro de diseminar la información, de modo que requerimos una llave que una a ambas tablas. Así, antes de separar la información formaremos la **llave primaria**. Ésta debe ser lo suficientemente capaz de identificar cada registro de manera única. En nuestro caso, la armaremos usando *Entidad+UPM+Vivienda+Hogar+Renglon*:

||  |  ||||||||
|--|--|--|--|--|--|--|--|--|--|
|Llave primaria Persona          |Entidad|Nombre de la entidad|UPM|Vivienda|Hogar|Renglon|Tipo_Delito|Descripcion_delito|
|02_02_01_02_01|02|Baja California     |02 |01      |02   |01     |1          |Robo de autopartes|
|01_18_02_01_03|01|Aguascalientes    |18 |02      |01   |03     |3          |Robo en transporte publico|
|32_12_03_05_04|32|Zacatecas     |12 |03      |05   |04     |14,15      |Desaparición forzada y secuestro|
|09_15_04_01_02|09|CDMX     |15 |04      |01   |02     |4          |Violencia verbal|

**Tabla A.**

||  |  ||||||
|--|--|--|--|--|--|--|--|
|Llave primaria Persona|Entidad|Nombre de la entidad|UPM|Vivienda|Hogar|Renglon
|02_02_01_02_01|02|Baja California|02|01|02|01|
|01_18_02_01_03|01|Aguascalientes|18|02|01|03
|32_12_03_05_04|32|Zacatecas|12|03|05|04
|09_15_04_01_02|09|CDMX|15|04|01|02

**Tabla B.**

||||
|--|--|--|
|Llave primaria Persona|Tipo_delito|Descripción_delito|
|02_02_01_02_01  |1|Robo de autopartes|
|01_18_02_01_03|3|Robo en transporte público|
|32_12_03_05_04|14|Desaparición forzada|
|32_12_03_05_04|15|Secuestro|
|09_15_04_01_02|4|Violencia verbal|


# Segunda Forma Normal (2FN)

**2FN_1:** La tabla debe estar en 1FN_1.

**2FN_2:** Identificar las dependencias entre los campos y la clave primaria.

**2FN_3:** Todo campo debe depender únicamente de la clave primaria.

En nuestro caso, **Tabla A** ya está en segunda forma normal, pero **Tabla B** no (porque los campos Tipo y Descripción no dependenden de la clave primaria).

Para llevar **Tabla B** a 2FN volvemos a partir la información y creamos una nueva llave:

**Tabla A.**

||  |  ||||||
|--|--|--|--|--|--|--|--|
|Llave primaria Persona|Entidad|Nombre de la entidad|UPM|Vivienda|Hogar|Renglon
|02_02_01_02_01|02|Baja California|02|01|02|01|
|01_18_02_01_03|01|Aguascalientes|18|02|01|03
|32_12_03_05_04|32|Zacatecas|12|03|05|04
|09_15_04_01_02|09|CDMX|15|04|01|02

**Tabla B1**

|Llave primaria Persona|LLave Primaria Tipo_delito|
|--|--|
|02_02_01_02_01|1|
|01_18_02_01_03|3|
|32_12_03_05_04|14|
|32_12_03_05_04|15|
|09_15_04_01_02|4|

**Tabla B2**

|Llave primaria tipo|Descripcion|
|--|--|
|1|Robo de autopartes|
|3|Robo en transporte público|
|14|Desaparición forzada|
|15|Secuestro|
|4|Violencia verbal|


## Tercera Forma Normal (3FN)

**3FN_1:** la tabla debe estar en 2FN

**3FN_2:** No deben existir dependencia transitiva entre los campos de las tablas.

En este caso, vemos que **Tabla A** no cumple 3FN_2, pues *Nombre de la entidad*, aunque depende de la llave primaria, lo hace a través de *Entidad*. Dividimos **Tabla A** y obtenemos finalmente el modelo en Forma Normal:

**Tabla A1**

||  |  ||||||
|--|--|--|--|--|--|--|--|
|Llave primaria Persona|Entidad|UPM|Vivienda|Hogar|Renglon
|02_02_01_02_01|02|02|01|02|01|
|01_18_02_01_03|01|18|02|01|03
|32_12_03_05_04|32|12|03|05|04
|09_15_04_01_02|09|15|04|01|02

**Tabla A2**

|Llave primaria Entidad|Nombre de la entidad|
|--|--|
|01|Aguascalientes|
|02|Baja California|
|09|CDMX|
|32|Zacatecas|

**Tabla B1**

|Llave primaria Persona|LLave Primaria Tipo_delito|
|--|--|
|02_02_01_02_01|1|
|01_18_02_01_03|3|
|32_12_03_05_04|14|
|32_12_03_05_04|15|
|09_15_04_01_02|4|

**Tabla B2**

|Llave primaria tipo|Descripcion|
|--|--|
|1|Robo de autopartes|
|3|Robo en transporte público|
|14|Desaparición forzada|
|15|Secuestro|
|4|Violencia verbal|


