# **Identificación de Fuentes de Datos**

## **Definición de los Sistemas Involucrados**
Para el desarrollo del Data Warehouse (DW), es fundamental identificar las fuentes de datos relevantes. Estas provienen de distintos sistemas que la empresa utiliza para gestionar operaciones y procesos clave.

Los principales sistemas involucrados son:

- **ERP (Enterprise Resource Planning):** Sistema central de gestión que almacena información sobre productos, ventas, clientes, inventarios y logística.
- **CRM (Customer Relationship Management):** Plataforma utilizada para la gestión de clientes, incluyendo datos de contacto, historial de compras, reclamaciones y preferencias.
- **Logística:** Base de datos donde se registran movimientos de productos, tiempos de entrega, seguimiento de pedidos y almacenamiento.
- **Postventa:** Información sobre garantías, devoluciones, mantenimiento y soporte técnico.

---
# **Tablas Relevantes en Cada Sistema**

| **Tabla**            | **Descripción Modificada**                                                            | **Sistema Fuente**            |
|----------------------|--------------------------------------------------------------------------------------|------------------------------|
| `001_sales`         | Registra información de ventas, costos, impuestos y garantías asociadas a los productos vendidos. | ERP                          |
| `002_date`          | Contiene datos de fechas, incluyendo días de la semana, festivos y períodos comerciales. | ERP (o sistema de gestión de tiempos) |
| `003_clientes`      | Almacena información demográfica y de comportamiento de los clientes registrados.      | CRM                          |
| `004_rev`          | Guarda detalles sobre inspecciones, revisiones y mantenimiento de productos.          | Postventa                    |
| `005_cp`           | Incluye información de códigos postales, regiones y ubicación geográfica de clientes. | Logística                    |
| `006_producto`     | Base de datos con especificaciones de productos, categorías, modelos y características. | ERP                          |
| `007_costes`       | Contabiliza costos logísticos, márgenes de ganancia y gastos publicitarios.            | ERP                          |
| `008_cac`         | Contiene registros sobre reclamaciones, fallas en productos y tiempos de servicio.     | Postventa                    |
| `009_motivo_venta` | Lista los principales factores que influyen en la decisión de compra de los clientes.  | ERP                          |
| `010_forma_pago`   | Almacena los diferentes métodos de pago utilizados en las transacciones comerciales.   | ERP                          |
| `011_tienda`       | Contiene datos de tiendas físicas, su distribución y zonas de operación.               | ERP                          |
| `012_provincia`    | Guarda descripciones de provincias y sus respectivos códigos identificadores.          | ERP                          |
| `013_zona`        | Proporciona información sobre zonas de mercado y su segmentación geográfica.           | ERP                          |
| `014_categoría_producto` | Agrupa productos según sus categorías, equipamiento y características especiales.  | ERP                          |
| `015_fuel`         | Identifica los diferentes tipos de combustible disponibles en el sistema.              | ERP                          |
| `016_origen_venta` | Clasifica el origen de las ventas según su canal o estrategia de comercialización.     | ERP                          |
| `017_logist`       | Contiene información detallada sobre logística, fechas de producción y distribución.   | Logística                    |
| `018_edad`        | Registra la antigüedad de los productos vendidos y su tiempo de circulación en el mercado. | Postventa                 |
| `019_Mosaic`       | Contiene análisis de clientes según características demográficas y hábitos de consumo. | CRM                          |


---

## **Sistemas y sus Tablas Clave**  
Cada sistema maneja distintos tipos de información, organizados en las siguientes categorías:

### **ERP (Enterprise Resource Planning)**  
- **Productos (`006_producto`)**: Registro detallado de los productos, incluyendo códigos, categorías y especificaciones.  
- **Ventas (`001_sales`)**: Información sobre transacciones comerciales, precios, clientes y métodos de pago.  

#### **Tabla `001_sales`**  

| **Campo**                      | **Tipo de Dato** | **Descripción**                                      | **Valores Únicos** | **Valores Repetidos** | **Observaciones** |
|--------------------------------|----------------|----------------------------------------------------------------|------------------|------------------|--------------------------------|
| `CODE`                         | varchar(50)    | Identificador único de cada venta registrada.                 | 58,049          | 0                | Cada transacción tiene un código distinto. |
| `Sales_Date`                   | varchar(50)    | Fecha en la que se concretó la transacción de venta.          | 2,135           | 55,914           | Varias ventas ocurrieron en la misma fecha. |
| `Customer_ID`                  | int            | Número de identificación del cliente que realizó la compra.   | 44,053          | 13,996           | Hay clientes que compraron más de una vez. |
| `Id_Producto`                  | varchar(50)    | Código único del producto vendido en la transacción.          | 404             | 57,645           | Algunos productos fueron comprados en múltiples ocasiones. |
| `PVP`                          | int            | Precio final de venta del producto, incluyendo impuestos.     | 1,011           | 57,038           | Existen precios recurrentes para distintos productos. |
| `MOTIVO_VENTA_ID`              | int            | Código que indica el motivo de la compra.                     | 2               | 58,047           | Solo se registran dos motivos distintos de compra. |
| `FORMA_PAGO_ID`                | int            | Tipo de pago seleccionado en la transacción.                   | 4               | 58,045           | Hay cuatro métodos de pago registrados. |
| `SEGURO_BATERIA_LARGO_PLAZO`   | varchar(50)    | Indica si se añadió un seguro extendido a la compra.         | 2               | 58,047           | Solo se permite la opción SI o NO en este campo. |
| `MANTENIMIENTO_GRATUITO`       | int            | Indica si el cliente obtuvo mantenimiento sin costo.          | 2               | 58,047           | Solo hay dos opciones, lo que indica una política fija en este aspecto. |
| `FIN_GARANTIA`                 | varchar(50)    | Fecha en la que finaliza la garantía del producto vendido.    | 2,135           | 55,914           | Muchos productos comparten la misma fecha de vencimiento de garantía. |
| `COSTE_VENTA_NO_IMPUESTOS`     | int            | Monto total de la venta sin incluir los impuestos.            | 2,273           | 55,776           | Hay valores repetidos, lo que sugiere precios estándar en productos. |
| `IMPUESTOS`                    | int            | Cantidad de impuestos aplicados a la compra.                  | 1               | 58,048           | Todos los productos tienen el mismo porcentaje de impuestos aplicado. |
| `TIENDA_ID`                    | int            | Identificador de la tienda donde se efectuó la compra.       | 12              | 58,037           | Solo hay 12 tiendas, lo que indica que las ventas están concentradas en estos puntos. |
| `Code_`                        | varchar(50)    | Código secundario asociado al producto.                       | 404             | 57,645           | Este código se repite en varios productos, lo que indica que puede estar relacionado con modelos o lotes. |
| `EXTENSION_GARANTIA`           | varchar(50)    | Especifica si la compra incluyó una extensión de garantía.    | 4               | 58,045           | Pocas opciones disponibles, lo que indica un esquema de garantía definido. |
| `BASE_DATE`                    | varchar(50)    | Fecha base de referencia para la transacción.                 | 1               | 58,048           | Todas las transacciones comparten la misma fecha de base. |
| `EN_GARANTIA`                  | varchar(50)    | Indica si el producto sigue cubierto por la garantía.        | 2               | 58,047           | Solo se permiten los valores SI o NO. |



- **Tiendas (`011_tienda`)**: Datos sobre ubicación, características y distribución de los puntos de venta.  
- **Métodos de Pago (`010_forma_pago`)**: Listado de opciones de pago disponibles y su clasificación.  

### **CRM (Customer Relationship Management)**  
- **Clientes (`003_clientes`)**: Base de datos con información personal, ubicación e historial de compras de los clientes.  

#### **Tabla `003_clientes`**  

| **Campo**                     | **Tipo de Dato** | **Descripción**                                      | **Valores Únicos** | **Valores Repetidos** | **Observaciones** |
|-------------------------------|----------------|----------------------------------------------------------------|------------------|------------------|--------------------------------|
| `Customer_ID`                 | int            | Código identificador único de cada cliente registrado.        | 44,053          | 0                | Cada cliente tiene un identificador exclusivo. |
| `Edad`                        | int            | Edad actual del cliente en años.                              | 59              | 43,994           | Hay clientes con la misma edad, lo que indica una distribución demográfica común. |
| `RENTA_MEDIA_ESTIMADA`        | int            | Ingreso promedio estimado del cliente.                        | 9,352           | 34,701           | Existen múltiples clientes con ingresos similares, lo que sugiere una segmentación económica. |
| `ENCUESTA_ZONA_CLIENTE_VENTA` | int            | Resultados de encuestas sobre la experiencia de compra según la zona del cliente. | 201 | 43,852 | Los valores repetidos indican respuestas estandarizadas o patrones en las zonas comerciales. |
| `ENCUESTA_CLIENTE_ZONA_TALLER`| int            | Respuestas de clientes sobre su experiencia con los talleres. | 205 | 43,848 | Patrones similares en respuestas indican tendencias en la calidad del servicio postventa. |
| `GENERO`                      | varchar(50)    | Sexo del cliente (F = Femenino, M = Masculino).               | 3               | 44,050           | Hay valores nulos, lo que indica que no se registró el género en algunos casos. |
| `CODIGO_POSTAL`               | varchar(50)    | Código postal de la ubicación del cliente.                    | 4,603           | 39,450           | Algunos clientes comparten el mismo código postal, lo que indica concentración en ciertas áreas. |
| `Fecha_nacimiento`            | varchar(50)    | Fecha de nacimiento del cliente en formato YYYY-MM-DD.        | 59              | 43,994           | Coincide con la edad, mostrando clientes que nacieron en los mismos años. |
| `STATUS_SOCIAL`               | varchar(50)    | Clasificación social del cliente (A, B, C, etc.).             | 13              | 44,040           | Hay registros con valores nulos, lo que puede afectar ciertos análisis de segmentación. |


- **Segmentación de Clientes (`019_Mosaic`)**: Análisis del comportamiento de compra y categorización de clientes según sus características.  

#### **Tabla `019_Mosaic`**  

| **Campo**         | **Tipo de Dato** | **Descripción**                                      | **Valores Únicos** | **Valores Repetidos** | **Observaciones** |
|------------------|----------------|----------------------------------------------------------------|------------------|------------------|--------------------------------|
| `CP`            | varchar(50)    | Código postal asociado a la zona de residencia del cliente.   | 6,457           | 0                | Cada registro tiene un código postal único. |
| `CP_value`      | int            | Valor asignado al código postal en la segmentación.           | 6,457           | 0                | Cada código postal tiene un valor único asociado. |
| `PROV`          | int            | Código identificador de la provincia del cliente.             | 52              | 6,405            | Se observa que varias zonas pertenecen a la misma provincia. |
| `PROV_INE`      | varchar(50)    | Nombre oficial de la provincia según el Instituto Nacional de Estadística. | 52 | 6,405 | La correspondencia con `PROV` indica que hay provincias con múltiples códigos postales asociados. |
| `Max_Mosaic`    | varchar(50)    | Segmento principal en el que se clasifica al cliente.         | 51              | 6,406            | La repetición de valores indica que muchos clientes comparten el mismo segmento de mercado. |
| `Max_Mosaic1`   | float          | Valor numérico asociado a la clasificación principal.         | 883             | 5,574            | Existen valores repetidos, lo que sugiere rangos de segmentación comunes entre clientes. |
| `Renta_Media`   | float          | Estimación del ingreso promedio en la zona del cliente.       | 4,526           | 1,931            | Hay una tendencia a valores similares, lo que indica que algunos clientes comparten niveles de ingresos parecidos. |
| `Mosaic_number` | float          | Número de identificación de la segmentación del cliente.      | 11              | 6,446            | La repetición de valores muestra que varios clientes están agrupados dentro de un mismo segmento. |
| `Max_Mosaic_G`  | varchar(50)    | Segmentación secundaria en la que se clasifica el cliente.    | 12              | 6,445            | Algunos clientes comparten la misma clasificación secundaria. |
| `Max_Mosaic2`   | float          | Valor numérico asignado a la segmentación secundaria.         | 893             | 5,564            | Existen patrones comunes en la asignación de valores de segmentación secundaria. |
| `Check`         | float          | Indicador de validación de datos en la segmentación.         | 1               | 6,456            | Todos los registros tienen el mismo valor, lo que sugiere que es una variable de control. |


### **Logística**  
- **Movimientos de Productos (`017_logist`)**: Registro de transporte, tiempos de entrega y almacenamiento en la cadena de suministro.  

#### **Tabla `017_logist`**  

| **Campo**          | **Tipo de Dato** | **Descripción**                                      | **Valores Únicos** | **Valores Repetidos** | **Observaciones** |
|-------------------|----------------|----------------------------------------------------------------|------------------|------------------|--------------------------------|
| `Fue_Lead`       | int            | Indica si el cliente fue identificado como un posible comprador (1 = Sí, 0 = No). | 2 | 58,047 | Hay solo dos valores posibles, lo que indica que los clientes son clasificados de manera binaria. |
| `Lead_compra`    | int            | Señala si el cliente que era un lead terminó comprando (1 = Sí, 0 = No). | 2 | 58,047 | La baja cantidad de valores únicos indica que el sistema usa una categorización fija. |
| `Origen_Compra_ID` | int          | Identificador de la fuente desde donde se originó la compra.   | 2 | 58,047 | Solo hay dos fuentes de origen registradas para las compras. |
| `t_prod_date`    | int            | Días que transcurrieron desde la fabricación hasta la venta.   | 46 | 58,003 | Muchas transacciones comparten tiempos similares, lo que puede reflejar ciclos de producción definidos. |
| `t_logist_days`  | int            | Número de días que el producto pasó en la etapa logística antes de la venta. | 31 | 58,018 | Existen patrones similares en la logística, lo que indica un flujo de distribución recurrente. |
| `t_stock_dates`  | int            | Tiempo en el que el producto estuvo almacenado antes de ser vendido. | 76 | 57,973 | Los valores repetidos muestran que varios productos permanecen en stock por tiempos similares. |
| `CODE`           | varchar(50)    | Código único asociado a la operación logística.                | 58,049 | 0 | No hay valores duplicados, cada transacción logística tiene un identificador único. |
| `Sales_Date`     | varchar(50)    | Fecha en la que se realizó la venta del producto.              | 2,190 | 55,859 | Se observa que varias ventas ocurrieron en las mismas fechas. |
| `Prod_date`      | varchar(50)    | Fecha en la que el producto fue fabricado.                     | 2,232 | 55,817 | Coincide con la fecha de venta en muchos casos, lo que sugiere tiempos de producción optimizados. |
| `Logistic_date`  | varchar(50)    | Fecha en la que el producto entró en la fase de distribución.  | 2,250 | 55,799 | Muchas fechas se repiten, lo que indica que la logística sigue un calendario predefinido. |


- **Inventarios (`005_cp`)**: Información sobre disponibilidad de productos, ubicación de almacenes y organización logística.  

#### **Tabla `005_cp`**  

| **Campo**       | **Tipo de Dato** | **Descripción**                                      | **Valores Únicos** | **Valores Repetidos** | **Observaciones** |
|---------------|----------------|----------------------------------------------------------------|------------------|------------------|--------------------------------|
| `provincia`  | varchar(50)    | Nombre de la provincia donde se encuentra la localidad.       | 52              | 10,988           | Existen 52 provincias, pero algunas tienen un alto número de registros asociados. |
| `poblacion`  | varchar(50)    | Nombre del municipio o localidad dentro de la provincia.      | 6,116           | 4,924            | Varias provincias comparten nombres de poblaciones, lo que puede generar duplicidades. |
| `codigopostalid` | varchar(50) | Identificador único para cada código postal.                  | 11,040          | 0                | Cada código postal tiene un identificador único sin repetición. |
| `lat`        | float          | Coordenada geográfica de latitud de la ubicación.             | 6,115           | 4,925            | Algunos registros tienen la misma latitud, indicando que están en ubicaciones cercanas. |
| `lon`        | float          | Coordenada geográfica de longitud de la ubicación.            | 6,114           | 4,926            | Al igual que la latitud, algunas localidades comparten coordenadas similares. |
| `CP`         | varchar(50)    | Código postal asociado a la localidad registrada.             | 11,040          | 0                | Cada código postal es único en la base de datos sin valores duplicados. |


### **Postventa**  
- **Garantías y Servicios (`004_rev`)**: Datos sobre garantías activas, servicios de mantenimiento y soporte técnico.  

#### **Tabla `004_rev`**  

| **Campo**                   | **Tipo de Dato** | **Descripción**                                      | **Valores Únicos** | **Valores Repetidos** | **Observaciones** |
|----------------------------|----------------|----------------------------------------------------------------|------------------|------------------|--------------------------------|
| `Revisiones`               | int            | Número total de revisiones realizadas a un producto.          | 9               | 58,040           | La mayoría de los registros tienen el valor 0, lo que indica que muchos productos no fueron revisados. |
| `Km_medio_por_revision`    | int            | Promedio de kilómetros recorridos entre cada revisión.        | 21,561          | 36,488           | La repetición de valores sugiere que muchos clientes tienen hábitos de uso similares. |
| `km_ultima_revision`       | int            | Kilometraje registrado en la última revisión efectuada.       | 25,988          | 32,061           | La similitud con el campo anterior indica que los vehículos siguen patrones de mantenimiento comunes. |
| `CODE`                     | varchar(50)    | Identificador único asociado a cada revisión.                 | 58,049          | 0                | No existen valores repetidos, cada revisión tiene un código único. |
| `DIAS_DESDE_ULTIMA_REVISION` | int          | Número de días transcurridos desde la última revisión.        | 1,468           | 56,581           | Se observan patrones comunes en los tiempos de revisión, lo que puede deberse a planes de mantenimiento programados. |
| `DATE_ULTIMA_REV`          | varchar(50)    | Fecha en la que se realizó la última revisión.                | 1,468           | 56,581           | Coincide con `DIAS_DESDE_ULTIMA_REVISION`, indicando que muchas revisiones siguen un cronograma fijo. |


- **Motivos de Compra y Devolución (`008_cac`)**: Registro y análisis de razones por las que los clientes adquieren o devuelven productos.  


