# Normalización de datos
La normalización de datos es clave en el análisis de datos porque garantiza consistencia y calidad. 
    + En este ejercicio, nos enfocamos en la normalización de datos de códigos postales de EE.UU.

Los códigos postales en EE. UU. pueden presentarse de diferentes formas, por ejemplo:
+ Formato estándar de 5 dígitos: 12345
+ Formato extendido ZIP+4: 12345-6789
+ Formato inconsistente: 12345 (con espacios), 123456789 (sin guion), 12-345 (mal escrito)

La normalización ayuda a asegurarnos de que todos los ZIP codes sigan un formato uniforme.

## Métodos de normalización
1. Eliminar espacios y caracteres no válidos
   + 1.1 Convertir en texto (string) si el dato no lo es.
   + 1.2 Eliminar espacios en blanco antes y después.
   + 1.3 Remover caracteres no deseados (excepto el guion en ZIP+4).
2. Asegurar que los códigos tengan el formato correcto
   + 2.1 Si el código tiene 9 dígitos sin guion (123456789), formatearlo como 12345-6789.
   + 2.2 Si tiene solo 5 dígitos, dejarlo tal cual (12345).
   + 2.3 Si tiene caracteres inválidos, marcarlo como incorrecto para revisión.
3. Validación contra una lista oficial
   + 3.1 Comparar los ZIP codes con bases de datos oficiales del Servicio Postal de EE. UU. (USPS).
   + 3.2 Esto es útil para detectar errores o códigos inexistentes.

### Ejemplo
Supongamos que tenemos una lista de códigos postales de EE. UU. que queremos normalizar.

In [1]:
import re

def normalize_zip(zip_code):
    # Convertir a string y limpiar espacios
    zip_code = str(zip_code).strip()

    # Verificar si es un ZIP+4 con guion
    if re.match(r'^\d{5}-\d{4}$', zip_code):
        return zip_code
    
    # Verificar si es un ZIP de 5 dígitos
    if re.match(r'^\d{5}$', zip_code):
        return zip_code
    
    # Si tiene 9 dígitos seguidos, formatearlo a ZIP+4
    if re.match(r'^\d{9}$', zip_code):
        return f"{zip_code[:5]}-{zip_code[5:]}"

    # ZIP no válido
    return None

# Ejemplo de uso
zip_codes = ["12345", "123456789", " 12345 ", "12345-6789", "12-345"]
normalized = [normalize_zip(z) for z in zip_codes]
print(normalized)  # ['12345', '12345-6789', '12345', '12345-6789', None]


['12345', '12345-6789', '12345', '12345-6789', None]
