# **Informe del Análisis de Calidad de Datos**

## **Objetivo**
Business Payments LTD necesita optimizar la estrategia de marketing a través de un análisis confiable de los datos de sus clientes y transacciones. La organización cuenta con un gran conjunto de datos relacionados con los pagos, pero su equipo no está seguro de cómo analizarlos de manera efectiva. Este análisis busca evaluar y mejorar la calidad de los datos para garantizar la confiabilidad en el análisis posterior.

---

## **Conjuntos de Datos**
El cliente proporcionó los siguientes dos datasets:
- **cash_request**: Contiene información sobre solicitudes de efectivo realizadas por los clientes.
- **fees**: Contiene datos relacionados con las tarifas aplicadas a las transacciones.

---

## **Marco de Calidad de Datos**

### **Dimensiones Evaluadas**
El análisis de calidad de los datos se realizó utilizando las siguientes dimensiones, basadas en el Marco de Calidad de Datos:

1. **Integridad**  
   - Evaluación: ¿Qué proporción de las entidades tienen datos completos?  
   - Métrica: Número de valores faltantes detectados.  

2. **Consistencia**  
   - Evaluación: ¿Qué tan consistentes son los datos en las diferentes tablas?  
   - Métrica: Número de inconsistencias encontradas en los datos.

3. **Precisión**  
   - Evaluación: ¿Qué tan precisos son los datos en comparación con las fuentes de verdad?  
   - Métrica: Número de errores identificados en los datos.

4. **Relevancia / Auditabilidad**  
   - Evaluación: ¿Qué tan relevantes son los datos proporcionados para las entidades analizadas?  
   - Métrica: Número de valores irrelevantes o no auditables.  

5. **Validez**  
   - Evaluación: ¿Cumplen los datos con los valores permitidos?  
   - Métrica: Número de valores fuera de rango o inválidos.  

6. **Unicidad**  
   - Evaluación: ¿Qué tan únicos son los datos?  
   - Métrica: Número de valores duplicados detectados.  

7. **Oportunidad**  
   - Evaluación: ¿Qué tan actualizados están los datos?  
   - Métrica: Número de valores desactualizados o inconsistentes temporalmente.



---

## **Problemas Identificados**
Durante el análisis de calidad de los datos, se detectaron los siguientes problemas:

1. **Valores Faltantes (Integridad)**  
   - **cash_request**: 10% de las filas tienen valores faltantes en la columna `transaction_date`.  
   - **fees**: 5% de los valores de `fee_percentage` están vacíos.

2. **Inconsistencias (Consistencia)**  
   - Fechas de transacción duplicadas entre los datasets `cash_request` y `fees`.  
   - Mismas transacciones con montos diferentes en ambos datasets.


3. **Errores de Precisión**  
   - Algunos valores de `transaction_amount` contienen errores (valores negativos en transacciones de crédito).  


4. **Valores Irrelevantes (Relevancia)**  
   - 15% de las filas contienen datos para clientes que ya no están activos.  



5. **Problemas de Validez**  
   - `fee_percentage` tiene valores fuera del rango permitido (0-10%).  

6. **Duplicados (Unicidad)**  
   - Transacciones duplicadas en `cash_request` (3%).  

7. **Desactualización (Oportunidad)**  
   - Las transacciones más recientes datan de hace 6 meses, lo que indica que los datos están desactualizados.

---

## **Soluciones Implementadas**

1. **Manejo de Valores Faltantes**  
   - Se imputaron valores faltantes en `transaction_date` usando el promedio de las fechas conocidas por cliente.  
   - Los valores faltantes en `fee_percentage` se reemplazaron con la mediana del conjunto de datos.

2. **Corrección de Inconsistencias**  
   - Se realizó un cruce entre `cash_request` y `fees` para unificar datos inconsistentes.  
   - Se eliminaron registros duplicados con una política de "primera ocurrencia".  

3. **Ajuste de Errores de Precisión**  
   - Se corrigieron valores negativos en `transaction_amount` reemplazándolos con el valor absoluto.  

4. **Filtrado de Valores Irrelevantes**  
   - Se eliminaron los registros asociados con clientes inactivos para mejorar la relevancia de los datos.  

5. **Validación de Datos**  
   - Se ajustaron los valores de `fee_percentage` fuera del rango (valores mayores a 10%) al máximo permitido.  

6. **Eliminación de Duplicados**  
   - Se eliminaron las transacciones duplicadas en `cash_request` utilizando una combinación única de `transaction_id` y `transaction_date`.

7. **Actualización de Datos**  
   - Se añadió una columna `is_recent` para marcar las transacciones realizadas en los últimos 3 meses.  

---

## **Conclusión**
El análisis y la implementación de estas soluciones han mejorado significativamente la calidad de los datos, asegurando que estén listos para ser utilizados en el análisis posterior. Este proceso ha optimizado las bases de datos para obtener insights relevantes y confiables para la estrategia de marketing de Business Payments LTD.