## üìö Importaci√≥n de librer√≠as necesarias

Importaci√≥n de la librer√≠a Pandas para el DataWranling y tambi√©n de la librer√≠a MongoClient para la conexi√≥n a la BD almacenada en MongoDB

In [None]:
import pandas as pd
import pymongo as pm
from pymongo import MongoClient as mongo

print(F"‚úÖ ¬°Pandas importado correctamente! Versi√≥n instalada = {pd.__version__}")
print(F"‚úÖ ¬°MongoDB importado correctamente! Versi√≥n instalada = {pm.__version__}")

## üñ•Ô∏è Conectar a MongoDB y extracci√≥n de datos

Utilizaci√≥n del controlador (driver) para conectarme a MongoDB y extraer los datos en un DataFrame.

In [None]:
# Almacenar la conexi√≥n a MongoDB en una variable
cliente = mongo("mongodb://localhost:27017/")

# Seleccionar la base de datos y la colecci√≥n
db = cliente["calidad_datos"]
coleccion = db["clientes_calidad"]

# Obtener todos los registros dentro de la tabla y guardarlos como una lista de diccionarios
registros = list(coleccion.find())

# Convertir todos los registros a un DataFrame para su tratamiento eliminado el atributo "_id"
df = pd.DataFrame(registros)
df.drop(columns=["_id"], inplace=True)
df.head()

## ‚úÖ 1) DIMENSI√ìN: Completitud

Revisar que los datos realmente tengan valores, que est√©n presentes, ver si hay valores perdidos, nulos, etc.

### üî∏ A. Revisi√≥n general de nulos

Esto ayuda a tener una vista r√°pida de la completitud de los datos.

In [None]:
# Ver cu√°ntos nulos hay por columna
df.isna().sum()

### üî∏ B. Detectar campos vac√≠os o en blanco (solo espacios)

Aqu√≠ usamos .str.strip() para eliminar espacios en blanco antes de evaluar si el campo est√° efectivamente vac√≠o.

In [None]:
# Detectar campos vac√≠os, o en blanco, que sean solo espacio
df[df["nombre"].isna() | (df["nombre"].str.strip() == "")]

In [None]:
df[df["email"].isna() | (df["email"].str.strip() == "")]

In [None]:
df[df["telefono"].isna() | (df["telefono"].astype(str).str.strip() == "")]

### üî∏ C. Identificar registros sin ning√∫n atributo √∫til

Ac√° se definen columnas cr√≠ticas y se buscan registros vac√≠os en ellas.

In [None]:
# Identificar registros completos sin ning√∫n atributo √∫til
# Definir las columnas cr√≠ticas que voy a evaluar
columnas_criticas = ["nombre","email","telefono","cliente_id"]

# Buscar registros completamente vac√≠os en estas columnas
df[df[columnas_criticas].isna().all(axis=1)]

## ‚úÖ 2) DIMENSI√ìN: Validez

Validaci√≥n de formatos y tipos.

### üî∏ A. Validaci√≥n de formato de correo electr√≥nico

Una verificaci√≥n b√°sica podr√≠a ser revisar que el email contenga un @ y un .

In [None]:
# Validar el formato del correo electr√≥nico
# Filtrar los registros con email NO NULO
emails_no_nulos = df["email"].dropna()

# Aplicar una condici√≥n sobre los emails NO NULOS (v√°lidos)
condicion = ~emails_no_nulos.str.contains("@") | ~emails_no_nulos.str.contains(r"\.")

# Mostrar los registros que tengan formato incorrecto
df.loc[emails_no_nulos[condicion].index]

### üî∏ B. Validar formato de tel√©fono

Esto permite identificar errores como abc123 o 123.

In [None]:
# Detectar tel√©fonos que contienen letras o s√≠mbolos (deben ser num√©ricos)
df[df["telefono"].notna() & (~df["telefono"].astype(str).str.isnumeric())]

In [None]:
# Detectar tel√©fonos demasiado cortos o largos
df[df["telefono"].notna() & (df["telefono"].astype(str).str.len() < 8)]

### üî∏ C. Validar formato de fechas (fecha_nacimiento y ultima_actualizacion)

Esto detecta fechas con formatos incorrectos como 02/11/1990 si no siguen un patr√≥n ISO.

In [None]:
# Intentar convertir fecha_nacimiento a datetime
df["fecha_valida"] = pd.to_datetime(df["fecha_nacimiento"], errors="coerce")

# Mostrar registros con fechas inv√°lidas
df[df["fecha_nacimiento"].notna() & df["fecha_valida"].isna()]

In [None]:
df["ultima_actualizacion_valida"] = pd.to_datetime(df["ultima_actualizacion"], errors="coerce")

df[df["ultima_actualizacion"].notna() & df["ultima_actualizacion_valida"].isna()]

### üî∏ D. Validar valores permitidos en campo estado

Aqu√≠ puedes identificar valores como True, 1, "Activo" (con may√∫sculas), etc.

In [None]:
# Mostrar valores √∫nicos para detectar inconsistencias
df["estado"].value_counts(dropna=False)

In [None]:
# Ver registros con valores inesperados
valores_validos = ["activo", "inactivo"]
df[~df["estado"].astype(str).str.lower().isin(valores_validos)]

## ‚úÖ 3) DIMENSI√ìN: Consistencia

Eval√∫a si los datos tienen sentido l√≥gico o representan correctamente lo que dicen.

### üî∏ A. Validaci√≥n de consistencia en la regi√≥n

Verificar valores distintos que significan lo mismo ("RM" vs "Regi√≥n Metropolitana").

In [None]:
# Mostrar todos los valores √∫nicos de la columna regi√≥n
df["region"].value_counts(dropna=False)

In [None]:
# Identificar registros que podr√≠an tener valores equivalentes en "region"
inconsistencias_region = df[df["region"].isin(["RM", "Regi√≥n Metropolitana"])]
inconsistencias_region

### üî∏ B. Detectar direcciones escritas de distintas formas

Filtrar registros con direcciones que empiecen con "Av." o "Avenida".

In [None]:
# Filtrar registros con direcciones que empiecen con "Av." o "Avenida"
inconsistencias_direccion = df[df["direccion"].astype(str).str.contains(r"^(?:Av\.|Avenida)", case=False, na=False)]
inconsistencias_direccion

### üî∏ C. Detectar abreviaturas comunes en direcciones

Buscar patrones de abreviaturas que puedan requerir estandarizaci√≥n futura.

In [None]:
patrones_direccion = df["direccion"].dropna().str.extract(r"^(?:Av\.|Avenida)", expand=False).value_counts()
patrones_direccion

### üî∏ D. Revisi√≥n de valores √∫nicos en estado

Filtra todos los registros √∫nicos del campo estado para detectar potenciales inconsistencias.

In [None]:
# Ver valores √∫nicos del campo estado
df["estado"].value_counts(dropna=False)

### üî∏ E. B√∫squeda de inconsistencias en estado

Detecci√≥n de valores inconsistentes en el estado de los registros.

In [None]:
# Queremos detectar casos donde el estado no est√© en los valores esperados ("activo" o "inactivo")
# pero que a√∫n as√≠ representen el mismo concepto (por ejemplo: True, 1, "Activo")
valores_validos = ["activo", "inactivo"]

# Convertir todo a string en min√∫sculas para compararlo con los valores esperados
inconsistencias_estado = df[
    df["estado"].notna() &
    ~df["estado"].astype(str).str.lower().isin(valores_validos)
]
inconsistencias_estado

In [None]:
# Analizar cu√°ntos registros presentan estas inconsistencias
inconsistencias_estado["estado"].value_counts()

## ‚úÖ 4) DIMENSI√ìN: Unicidad

Detecci√≥n de problemas de unicidad en el DataFrame en campos como cliente_id, nombre y email

### üî∏ A. Verificar duplicados en cliente_id

Verificar duplicados en la clave primaria: cliente_id.

In [None]:
# Verificar duplicados en la clave primaria: cliente_id
duplicados_cliente_id = df[df.duplicated(subset=["cliente_id"], keep=False)]
duplicados_cliente_id

### üî∏ B. Verificar posibles duplicados en nombre

Buscar nombres exactos duplicados.

In [None]:
# Buscar nombres exactos duplicados
duplicados_nombre_exactos = df[df.duplicated(subset=["nombre"], keep=False)]
duplicados_nombre_exactos

# Opcional: detectar similitudes de nombres (ej. 'Juan P√©rez' vs 'Juan Perez')
# Esto no es un duplicado exacto, pero sirve para an√°lisis exploratorio
# (m√°s adelante en Wrangling se podr√≠an usar librer√≠as como fuzzywuzzy)
nombres_similares = df["nombre"].str.lower().value_counts()
nombres_similares[nombres_similares > 1]

### üî∏ C. Verificar posibles duplicados en email

Buscar email exactos duplicados.

In [None]:
# Buscar duplicados exactos de email
duplicados_email = df[df.duplicated(subset=["email"], keep=False) & df["email"].notna()]
duplicados_email

## ‚úÖ 5) DIMENSI√ìN: Actualidad

Revisi√≥n de los datos con fechas para revisar la actualidad de los registros.

### üî∏ A. Tratamiento del campo 'ultima_actualizacion' previo al an√°lisis

Convertir la columna 'ultima_actualizacion' a datetime.

In [None]:
from datetime import datetime

# Convertir la columna 'ultima_actualizacion' a datetime
df["ultima_actualizacion_valida"] = pd.to_datetime(df["ultima_actualizacion"], errors="coerce")

# Definir umbral de "desactualizaci√≥n" (por ejemplo: antes de 2018)
fecha_umbral = pd.Timestamp("2018-01-01")

# Filtrar registros desactualizados
registros_desactualizados = df[df["ultima_actualizacion_valida"].notna() & (df["ultima_actualizacion_valida"] < fecha_umbral)]
registros_desactualizados

### üî∏ B. Calcular la antiguedad de los registros

Determinar en a√±os la antiguedad de aquellos registros con datos.

In [None]:
# Calcular la antig√ºedad en a√±os de cada registro
df["antiguedad_ultima_actualizacion"] = (datetime.now() - df["ultima_actualizacion_valida"]).dt.days / 365
df[["cliente_id", "nombre", "ultima_actualizacion", "antiguedad_ultima_actualizacion"]]

In [None]:
# Identificar registros sin fecha de actualizaci√≥n (posiblemente nunca actualizados)
registros_sin_actualizacion = df[df["ultima_actualizacion_valida"].isna()]
registros_sin_actualizacion

## üõ†Ô∏è Plan de Data Wrangling

### 1Ô∏è‚É£ Completitud
Problema: Campos vac√≠os o nulos en nombre, email, telefono y registros con informaci√≥n incompleta.

### 2Ô∏è‚É£ Validez
Problema: Formatos incorrectos en email, telefono y fechas.

### 3Ô∏è‚É£ Consistencia
Problema: Valores que significan lo mismo pero con formatos distintos ("RM" vs "Regi√≥n Metropolitana", "Activo" vs True).

### 4Ô∏è‚É£ Unicidad
Problema: Duplicados en cliente_id, nombre y email.

### 5Ô∏è‚É£ Actualidad
Problema: Registros sin fecha de actualizaci√≥n o con datos antiguos.

## üõ† Data Wrangling

### 1Ô∏è‚É£ Completitud

In [None]:
# Reemplazar valores nulos o vac√≠os con texto est√°ndar
df["nombre"] = df["nombre"].fillna("desconocido").str.strip()
df["email"] = df["email"].fillna("no_disponible").str.strip()
df["telefono"] = df["telefono"].fillna("no_disponible").astype(str).str.strip()

# Reemplazar valores vac√≠os (solo espacios) por "desconocido" o "no_disponible"
df.loc[df["nombre"] == "", "nombre"] = "desconocido"
df.loc[df["email"] == "", "email"] = "no_disponible"
df.loc[df["telefono"] == "", "telefono"] = "no_disponible"

# Identificar registros sin datos cr√≠ticos (cliente_id vac√≠o)
registros_sin_cliente_id = df[df["cliente_id"].isna()]
if not registros_sin_cliente_id.empty:
    print("Registros sin cliente_id detectados:", len(registros_sin_cliente_id))

## üõ† Data Wrangling

### 2Ô∏è‚É£ Validez

In [None]:
import re

# Normalizar emails inv√°lidos
patron_email = r"^[\w\.-]+@[\w\.-]+\.\w+$"
df.loc[~df["email"].str.match(patron_email, na=False), "email"] = "email_invalido"

# Limpiar tel√©fonos no num√©ricos o absurdos
df.loc[~df["telefono"].str.isnumeric(), "telefono"] = "telefono_invalido"
df.loc[df["telefono"].str.len() < 8, "telefono"] = "telefono_invalido"
df.loc[df["telefono"].str.len() > 12, "telefono"] = "telefono_invalido"

# Normalizar fechas de nacimiento y √∫ltima actualizaci√≥n
df["fecha_nacimiento"] = pd.to_datetime(df["fecha_nacimiento"], errors="coerce")
df["ultima_actualizacion"] = pd.to_datetime(df["ultima_actualizacion"], errors="coerce")

# Validar rut simple (si existe columna rut)
if "rut" in df.columns:
    df.loc[~df["rut"].astype(str).str.match(r"^\d{1,2}\.\d{3}\.\d{3}-[0-9KkXx]$", na=False), "rut"] = "rut_invalido"

## üõ† Data Wrangling

### 3Ô∏è‚É£ Consistencia

In [None]:
# Normalizar regi√≥n
region_map = {
    "RM": "Regi√≥n Metropolitana",
    "rm": "Regi√≥n Metropolitana"
}
df["region"] = df["region"].replace(region_map)

# Normalizar estado
estado_map = {
    "activo": "activo",
    "inactivo": "inactivo",
    "true": "activo",
    "1": "activo",
    "false": "inactivo",
    "0": "inactivo"
}
df["estado"] = df["estado"].astype(str).str.lower().replace(estado_map)

# Estandarizar direcciones ("Av." -> "Avenida")
df["direccion"] = df["direccion"].astype(str).str.replace(r"^Av\.", "Avenida", case=False, regex=True)

## üõ† Data Wrangling

### 4Ô∏è‚É£ Unicidad

In [None]:
# Eliminar duplicados en cliente_id conservando el primero
df = df.drop_duplicates(subset=["cliente_id"], keep="first")

# Detectar duplicados exactos de email y marcarlos
duplicados_email = df[df.duplicated(subset=["email"], keep=False) & df["email"].notna()]
if not duplicados_email.empty:
    print("‚ö†Ô∏è Emails duplicados detectados:", duplicados_email["email"].nunique())

# Detectar posibles duplicados de nombre
duplicados_nombre = df[df.duplicated(subset=["nombre"], keep=False)]
if not duplicados_nombre.empty:
    print("‚ö†Ô∏è Nombres duplicados detectados:", duplicados_nombre["nombre"].nunique())

## üõ† Data Wrangling

### 5Ô∏è‚É£ Actualidad

In [None]:
# Crear columna para marcar registros desactualizados
fecha_umbral = pd.Timestamp("2018-01-01")
df["desactualizado"] = df["ultima_actualizacion"].apply(lambda x: "s√≠" if pd.notna(x) and x < fecha_umbral else "no")

# Marcar registros sin fecha
df["desactualizado"] = df["desactualizado"].mask(df["ultima_actualizacion"].isna(), "sin_actualizacion")

# Recalcular antig√ºedad en a√±os
df["antiguedad_ultima_actualizacion"] = (pd.Timestamp.now() - df["ultima_actualizacion"]).dt.days / 365