<a href="https://colab.research.google.com/github/HenryZumaeta/py4cd_EPC2025/blob/main/C02/C02_Script01_CicloVidaDatos_IntroEstadistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ciclo de vida de los datos

Esquema circular:

- CREAR
- PROCESAR
- ANALIZAR
- CONSERVAR
- DAR ACCESO
- REUTILIZAR
- [VOLVER A CREAR]

Abordaremos estos tópicos desde la siguiente perspectiva

- Definición técnica
- Herramientas y tecnologías claves
- Desafíos comunes
- Ejemplos prácticos
- Perspectivas multidisciplinarias

# DATA CREATION

**Definición**: La fase inicial donde los datos son generados por fuentes diversas: sensores, transacciones, usuarios, dispositivos IoT, formularios, redes sociales, etc.

- Procesos involuntarios
  - Captura de datos (data capture)
  - Generación automática (logs, métricas, eventos)
  - Ingresos manual (formularios, encuestas)
  - Interfaz con APIs externas

- Tecnologías y herramientas
  - IoT: Raspberry Pi, Arduino, Sensores Ambientales, JetsonNano
  - Sistemas de gestión de bases de datos: PostgreSQL, MongoDB, Redis
  - APIs Rest/GraphQL
  - Event-driven Arch: Kafka, Pulsar
  - Python: pandas, request, scrapy, flask (para captura de datos)

- Ejemplito: Un hospital implementa un sistema de monitoreo de pacientes con sensores de frecuencia cardiaca y oxígeno. Cada 5 segundos, genera un registro JSON con un timestamp, ID, Valor del pulso, saturación de oxígeno, etc.

```
sensor_data = {
    "ID_paciente" : "P001",
    "timestamp" : datetime.now().isoformat(),
    "heart_rate": 72,
    "sp_02" : 98,
    "device_id": "SENSOR_46_piso2"
}
```

Este dato se envía a Kafka para ser consumido posteriormente

- Perspectivas por perfil:
  - Analista o Científico de Datos: Verificar si los datos cumplen con criterios mínimos de calidad.
  - Ingeniero de software: Diseña microservicios para capturar datos en tiempo real (WebSockets, HTTP).
  - Ingeniero de IA: Evaluar si los datos creados tiene el potencial para entrenar modelos predictivos.
  - Especialista en Gobernanza: Asegura que se cumplan las normativas

# DATA PROCESSING

**Definición**: Transformación, limpieza, integración y normalización de datos crudos para hacerlos aptos para el análisis.

- Actividades Clave
  - Limpieza de datos: Remoción de duplicados, imputación de valores faltanes.
  - Transformaciones: Normalización, escalado, codificación.
  - Integración de multiples fuentes: ETL (Extract, Trnansform, Load).
  - Streaming vs Batch Processing

- Herramientas y lenguajes de programación
  - Python: pandas, pyarrow, polars.
  - Big Data: Apache Spark (PySpark), Flink.
  - Plataformas: Airflow (Orquestación), Prefect, dagster
  - Base de Datos: SnowFlake, BigQuery, Delta lake

- Ejemplito: Se recibe un dataset de un área en particular (por ejemplo: el departamento de logística) cuya informaci´n está desordenada e incompleta (fechas mal formateadas). Se aplica un pipeline ETL.

- Perspectivas por perfil
  - Desarrollo Backend: Implementa servicios que ejecutan pipelines ETL en AWS Lambda o Google Cloud Functions
  - Ingeniero DevOps: Orquesta el flujo de procesamiento: Kubernetes + Helm + Airflow.
  - Analista o Científico de Datos: Define las reglas de negocio para las transformaciones.
  - Ingeniero Machine Learning: Requiere datos preprocesados con distribuciones estables para evitar problemas con overfitting

# DATA ANALYSIS & MODELLING

**Definición**: Aplicación de técnicas estadísticas, matemáticas y algorítmicas para extraer conocimiento, patrones y predicciones.

- Tipo de Analisis
  - Descriptivo: ¿Qué ocurrió?
  - Diagnóstico: ¿Por qué?
  - Predictivo: ¿Qué ocurrirá?
  - Prescriptivo: ¿Qué debería hacerse?

- Métodos y Herramientas
  - Estadística descriptiva: Media, mediana, varianza, correlación, etc.
  - Estadística diferencial: pruebas t, ANOVA, intervalo de confianza, etc.
  - Machine learning: Regresiones lineales, árboles de decisión, bosques aleatorios, XGboost, etc.
  - Deep Learning: Redes neuronales, transformers, LLM, RAG, Agentes, etc.
  - NLP: Tokenización, embedding, BERT.
  - Vision Artificial: Detección de objetos,  segmentación, etc.

- Ejemplito: Construir un modelo de predicción de demanda de produtos usando algún modelo de ML.

- Perspectivas por perfil
  - Ingeniero de ML: Entrenar modelos con validación cruzada, hiperparámetros optimizados.
  - Científico de datos: Aplica teoría bayesiana para interpretar resultados con insertidumbre.
  - QA Tester: Valida que el modelo no tenga algún tipo de sesgo.

# DATA PRESERVATION & STORAGE

**Definición**: Almacenamiento seguro, duradero y accesible de datos (Considerar aspectos técnicos, legales y éticos)

- Estrategias
  - Archivado: datos históricos sin uso activo
  - Backup: Copias de seguridad periódicas
  - Retención legal: Cumplimiento de leyes
  - Seguridad: Cifrado, control de acceso y las auditorías

- Soluciones técnicas
  - Bases de datos relacionales
  - NoSQL
  - DataLakes: Amazon S3, Azure Data Lake
  - Data Warehouses: Snowflake, BigQuery, RedShift
  - Blockchain: Para garantizar integridad

- Ejemplito: Una empresa financiera almacena transacciones en S3 con politicas de retención.

- Perspectivas por perfil
  - Ingeniero de DevOps: Configurar políticas de backup automáticas
  - Arquitecto de Software: Diseña arquicturas de almacenamiento escalables
  - Especialista en Seguridad: Implementa un Zero Trust Architecture para proteger datos sensibles.
  - Asesor de Gobierno: Garantizar que el almacenamiento cumpla con leyes locales.

# DATA ACCESS & GOVERNANCE

**Definición**: Control de quién accede a qué datos, bajo qué condiciones y con qué fines.

- Principios Clave
  - Principio de Mínimo Privilegio
  - Autenticación y Autorización (OAuth2, JWT)
  - Registro de accesos
  - Consentimiento informado
  - Anonimización y Pseudonimización

- Herramientas
  - IAM (Identity and Access Management): AWS IAM, Okta, Keycloak
  - Data Catalogo: Alation Amundsen
  - Data Governance Plataforms: Collibra, Informatica
  - API Gateways: Kong, Apigee

- Ejemplito: Un investigador solicita acceso a datos  de salud anónimos para estudiar patrones de determinada enfermedad.

- Perspeciva por perfil
  - Arquitecto de IA: Diseña APIs seguras para modelos predictivos
  - Ingeniero de seguridad: Monitoreo de intentos de accesos no autorizados
  - Analista o Científico de Datos: Acceder a datos con roles específicos.
  - Asesor de Gobierno de Datos: Promueve políticas públicas de apertura de datos.

# DATA REUSE & REPURPOSING

**Definición**: Uso de datos ya procesados o analizados para nuevos fines, proyectos o contextos.

- Beneficios:
  - Aprovechamiento de la inversión previa
  - Reducción de redundancia
  - Innovación
  - Ciencia de datos reproducible

- Formas de reutilización
  - Reusabilidad técnica
  - Reusabilidad científica
  - Reusabilidad social

- Plataformas
   - Hugging Face
   - Tensorflow Hub
   - Github
   - Portales de datos abiertos

- Ejemplito: Un modelo de clasificación de imágenes (ResNet) entrenados en medicina se reutiliza para detectar daños en infraestructura urbana.

- Perspectivas por perfil
  - Ingeniero de ML: Aplica el transfer learning para acelerar el desarrollo.
  - Desarrollador Frontend: Integra APIs de modelo reutilizable en aplicaciones web.
  - Asesor de gobierno de datos: Fomentar el uso de datos para innovación social
  


# Aplicaciones

- Encuestas de satisfacción del cliente
- Control de calidad de productos
  - Muestreo Aleatorio Simple: Empresa que fabrica botellas de vidrio.
  - Muestreo Sistemático: Empresa textil que produce camisetas por turno.
  - Muestreo Estratificado: Empresa de alimentos que produce tres sabores de yogurt.
  - Muestreo conglomerado: Fábrica de lámparas que embala sus productos en cajas de 20 unidades.

- Estimación de inventarios en grandes almacenes.
- Análisis de sentimientos en redes sociales.
- Auditorías financieras y contables.
- Segmentación de clientes para marketing dirigido.
- Pruebas de rendimiento de sitios web y aplicaciones para celulares.
- Detección de fraude en transacciones financieras.
- Investigación de mercados y proyección de tendencias.

