# Proceso de Recolección de Datos para el Proyecto para Identificar los Perfiles de Clientes que se suscriben a los depósitos a plazo

## 1. Fuentes
**Identificación de Fuentes:**

Base de datos CRM interna del banco, que está conectada con otros sistemas internos del departamento de finanzas y márketing. 

**Descripción de las Fuentes:**

El CRM contiene: 

* Información demográfica de los clientes (ocupación, edad, estudios, etc.), registrada por los empleados del banco utilizando una API que se conecta con el sistema de registro de clientes

* Detalles financieros básicos (presencia/ausencia de productos financieros como préstamos o hipoteca, saldo en la cuenta, etc.) que provienen del sistema de finanzas, que se actualizan cuando el cliente contrata un nuevo producto financiero o hay modificaciones en el saldo disponible

* Datos de las campañas de márketing (método de contacto, duración, conversión de los clientes), que son registrados automáticamente en el sistema de marketing del banco tras tras las llamadas en las que se ofrecen ofertas

## 2. Métodos de Recolección de Datos
**Procedimientos y herramientas:**

Las actualizaciones de los registros del CRM y los cambios en la salud financiera o los datos de las campañas de márketing se realizan automáticamente mediante integraciones con otros sistemas del banco. 

Los registros del CRM se exportan de manera programada en formato CSV y se almacenan en el servicio de la nube seguro utilizado por el banco. 

Los Data Engineers del banco se encargan de supervisar la correcta integración de los sistemas de los diferentes departamentos con el CRM y de garantizar que los registros se exporten sin errores.

**Frecuencia de Recolección:**

Diariamente

**Scripts de Descarga:**

```python

import libreria_conexion_con_servicio_nube as conn
import pandas as pd

#definir credenciales del servicio en la nube (usuario, contraseña, etc. ), si es necesario

#posibles pasos a seguir
file_path = "__/ruta/del/archivo/archivo.csv"
data = conn.__(file_path, otros_argumentos_necesarios) 

df = pd.read_csv(data)
df.head()

```

## 3. Formato y Estructura de Datos
**Tipos de Datos:**

Numéricas: `age`, `balance`, `duration`, `campaign`, `pdays`, `previous`, `day_of_week`

Categóricas: `job`, `marital`, `education`, `contact`, `poutcome`, `month`

Binarios: `default`, `housing`, `loan`, `y`

**Formato de Almacenaje:**

Datos tabulares almacenados en archivo CSV.

## 4. Limitaciones de los Datos

* Malentendido y/o confusión en la interpretación de ciertas variables. Por ejemplo:
    * `pdays`: -1 significa que el cliente no fue contactado anteriormente
    * `duration`: la duración no es conocida antes de la llamada, no es aconsejable utilizarla para modelos predictivos

* Algunos datos desactualizados debido a que la información de cada sistema de gestión se actualiza en diferentes momentos en el CRM. Estos problemas de sincronización pueden afectar la toma de decisiones informadas.

* Restricción de acceso a datos de otros departamentos que pueden ser interesantes por algún motivo en concreto, ya que están en otro sistema de gestión con acceso exclusivo a los usuarios de ese departamento en particular. 

* El registro de los datos demográficos de los clientes se realizan manualmente por los empleados del banco, por lo que podrían contener ciertos errores durante la entrada de datos.

## 5. Consideraciones sobre Datos Sensibles
**Tipos de Datos Sensibles:**

Información Personal Identificable (PII): no hay

Información Financiera Sensible: `default`, `balance`, `housing`, `loan`

Datos Comportamentales Sensibles: no hay

**Medidas de Protección:**

* Cifrado de Datos:

    * Utilizar técnicas de cifrado para proteger los datos sensibles. Esto incluye datos almacenados en el CRM, en los sistemas de gestión interna de cada departamento y datos almacenados en la nube.

* Acceso Restringido:

    * Acceso a datos sensibles restringido exclusivamente al personal autorizado que los necesite para un análisis concreto (por ejemplo, que los analistas de márketing no tengan acceso a algunos datos financieros sensibles).

    * Implementar un registro de acceso para monitorear quién accede a los datos sensibles, con el fin de detectar y responder a posibles brechas de seguridad.

* Formación del personal:

    * Proporcionar capacitación regular al personal sobre la importancia de la protección de datos sensibles, así como sobre las mejores prácticas para manejarlos de manera segura.

* Cumplimiento de Regulaciones:

    * Asegurar que se cumpla con el Reglamento General de Protección de Datos (GDPR) y otras normativas locales que regulen el tratamiento de datos sensibles.