
# Clase con Laboratorio: Apps con Streamlit + PostgreSQL + Servicios de Transformación de Datos (DTS)
**Fecha de elaboración:** 2025-10-16  
**Curso:** (supuesto) Programación y Datos Aplicados (8 estudiantes, modalidad presencial, laboratorio computacional)  
**Duración:** 4–5 horas pedagógicas de 45 min (180–225 min). A continuación se planifica para **225 min** con opción de ajuste a 180 min (ver notas).  
**Supuestos declarados (en ausencia de programa formal):**
- Resultados de aprendizaje del curso: desarrollar aplicaciones web ligeras para visualización de datos, integrar una base de datos relacional (**PostgreSQL**) y aplicar buenas prácticas de calidad de datos.
- Contenidos previos vistos: Python básico, manejo de paquetes, nociones de HTTP/cliente-servidor, y manipulación de datos con `pandas`.
- Restricciones logísticas: laboratorio con computadores con Python 3.10+, `pip`, permisos de instalación, conectividad estable; servidor PostgreSQL local o gestionado (p. ej., en campus o cloud).

---

## Objetivos de aprendizaje (vinculados al programa)
1. **Diseñar y desplegar** una aplicación mínima en **Streamlit** que consulte y muestre datos desde **PostgreSQL**.  
2. **Implementar un flujo sencillo de DTS** (extracción → transformación → carga) desde un CSV a PostgreSQL, documentando supuestos y decisiones de limpieza.  
3. **Asegurar la calidad de datos** mediante validaciones básicas (esquema, tipos, nulos, claves) y **buenas prácticas de integridad académica** (registro de fuentes y versión del código).  
4. **Aplicar prácticas de trabajo reproducible** (estructura de proyecto, `requirements.txt`, variables de entorno para credenciales y conexión segura).

**Criterios de logro (nivelación):**
- **Básico:** la app de Streamlit corre localmente y muestra una tabla consultada de PostgreSQL.  
- **Intermedio:** ETL (DTS) carga datos limpios y la app provee al menos dos vistas (tabla + gráfico/simple filtro) con consultas parametrizadas.  
- **Avanzado:** validaciones implementadas, índices/clave primaria definidos, parámetros configurables y README que documenta el pipeline y el esquema.

---

## Pre-requisitos y conocimientos previos
- Python intermedio; manejo de `pip`/`venv`.  
- Conocimientos básicos de SQL (SELECT, CREATE TABLE, tipos).  
- Lecturas previas sugeridas (opcional): documentación intro de Streamlit y de PostgreSQL.

---

## Materiales y recursos
- **Software:** Python 3.10+, `streamlit`, `pandas`, **`SQLAlchemy`**, **`psycopg2-binary`** (o `psycopg`), `python-dotenv`.  
- **Servicios:** Servidor **PostgreSQL** accesible para estudiantes (credenciales de práctica y base/schema por sección).  
- **Datos de práctica:** CSV provisto por la cátedra (ej.: `ventas.csv` o `sensores.csv`, sin PII).  
- **Infraestructura:** Computadores con proyector/pizarra; LMS para subir materiales; repositorio (Git) opcional.

---

## Guion temporal detallado (225 min)
> Nota: para una versión de **180 min**, reducir los tiempos de práctica guiada (Bloques 4 y 5) en ~45 min total.

### Bloque 1 — Apertura y activación (20 min)
- **5’** Presentación de objetivos, criterios de logro y productos esperados.  
- **10’** Activación: breve sondeo de experiencias previas (mentimeter o mano alzada) sobre web apps y SQL.  
- **5’** Revisión de agenda y entregables (ticket de salida y mini-demo).

### Bloque 2 — Marco conceptual y setup (40 min)
- **10’** Mini-clase: arquitectura ligera con Streamlit; patrón ETL/DTS; riesgos (credenciales, PII, tipos, inyección SQL).  
- **15’** Setup guiado: crear `venv` y `pip install -U streamlit pandas sqlalchemy psycopg2-binary python-dotenv`.  
- **15’** Conexión a PostgreSQL: variables de entorno (`.env`), DSN/URI (p. ej., `postgresql+psycopg2://user:pass@host:port/db`), prueba de conexión y creación de **schema**.

### Bloque 3 — DTS/ETL: de CSV a PostgreSQL (45 min)
- **10’** Limpieza mínima con `pandas`: tipos, nulos, normalización de fechas/categorías.  
- **20’** Definición de esquema y carga: `CREATE TABLE` (clave primaria, tipos correctos), `to_sql` con SQLAlchemy o `COPY`/`executemany`.  
- **15’** Validaciones básicas: conteo de filas, chequeo de nulos, unicidad de clave, tipos correctos (ej.: `DATE`, `NUMERIC`).

### Bloque 4 — App Streamlit inicial (60 min)
- **15’** Estructura de proyecto y archivo `app.py`. Conexión con SQLAlchemy (`create_engine`) y `pandas.read_sql`.  
- **25’** Interacción: filtros parametrizados (evitar inyección), agregaciones (`GROUP BY`) y gráfico simple (`st.line_chart`/`st.bar_chart`).  
- **20’** Variables de entorno y configuración (`.env`, `.streamlit/secrets.toml` opcional); manejo de errores y timeouts.

### Bloque 5 — Mejora, demo y cierre (60 min)
- **20’** Mejora incremental: vistas o tabs; índices adicionales para rendimiento; caché selectiva (`st.cache_data`).  
- **20’** Ticket de salida (individual): checklist de calidad + mini-demo ejecutable.  
- **20’** Puesta en común y retroalimentación cruzada. Indicaciones de tarea autónoma (README + mejoras).

**Tiempo total:** 225 min.

---

## Instrucciones paso a paso (docente y estudiantes)
**Docente**  
1. Verificar con antelación acceso a servidor PostgreSQL (roles, DB y schema por sección).  
2. Proveer `requirements.txt`, plantilla de `.env.example` con: `PGHOST`, `PGPORT`, `PGUSER`, `PGPASSWORD`, `PGDATABASE` o `DATABASE_URL`.  
3. Entregar DDL base sugerido (tabla(s) objetivo) y dataset CSV.  
4. Demostrar una app mínima en vivo y promover adaptación por equipos.  
5. Facilitar rúbrica breve y checklist de seguridad/datos.

**Estudiantes**  
1. Crear y activar entorno virtual; instalar dependencias.  
2. Diseñar esquema mínimo (tipos y clave); cargar CSV transformado a PostgreSQL.  
3. Construir `app.py` que ejecuta consultas **parametrizadas** y despliega tabla + 1 gráfico + 1 filtro.  
4. Colocar credenciales en `.env` (no subirlas al repo).  
5. Completar ticket de salida y preparar mini-demo.

---

## Estrategias de diferenciación e inclusión
- **Apoyo escalonado:** parejas heterogéneas (peer tutoring) y snippets de SQL parametrizado.  
- **Rutas alternativas:** dataset más pequeño para equipos con menor avance; dataset mayor para profundización.  
- **Accesibilidad:** fuentes legibles, contraste en proyector; materiales con capturas y pasos numerados.  
- **Evaluación flexible:** evidencias equivalentes (capturas, video corto de demo, o repo con README).

---

## Evidencias / Productos esperados
- **Código ejecutable** (`app.py`, script ETL `load.py` o notebook) + `requirements.txt` + `.env.example`.  
- **DDL del esquema** (`schema.sql`) con `CREATE TABLE` e índices.  
- **Mini-demo** (video 1–2 min o en vivo).  
- **Ticket de salida** con checklist de calidad (ver más abajo).  
- **README** básico (estructura del proyecto, decisiones de DTS y modelo de datos).

---

## Evaluación formativa y criterios de logro
**Instrumentos:**  
- **Ticket de salida (10 ptos):** checklist binario (sí/no) + 2 preguntas cortas de reflexión.  
- **Observación de desempeño (10 ptos):** durante práctica guiada (configuración, carga y consulta SQL funcional).

**Rúbrica breve (ejemplo, 20 ptos):**
- Configuración y conexión segura (env, requirements) — **5 ptos**  
- ETL/DTS correcto y validado (tipos, nulos, recuentos, clave/índices) — **7 ptos**  
- App con tabla + gráfico + filtro (consultas parametrizadas) — **6 ptos**  
- Documentación mínima (README, DDL) — **2 ptos**

**Retroalimentación:** inmediata al finalizar Bloque 5 + comentarios escritos sobre el ticket.

---

## Carga total estimada
- **Docencia directa:** 225 min  
- **Trabajo autónomo posterior:** 60–90 min (mejoras + documentación)  
- **Carga total de la sesión:** 285–315 min

---

## Objetivos y competencias del laboratorio (prácticas)
- Conectar servicios (app ↔ base de datos) con **credenciales seguras** y consultas **parametrizadas**.  
- Implementar **DTS** reproducible con registro de decisiones (data log).  
- Operar herramientas de **visualización rápida** con Streamlit para explorar datos.

---

## Protocolo de seguridad y EPP
- **Ergonómico y eléctrico:** cableado ordenado, evitar sobrecarga de enchufes.  
- **Datos y privacidad:** no usar PII; **no exponer credenciales**; `.env` y mínimo de privilegios (rol app sin superusuario).  
- **Red/SSL:** preferir conexiones cifradas; rotación de contraseñas de práctica.  
- **EPP:** no aplica EPP físico específico; sí “EPP digital”: gestor de contraseñas y 2FA cuando aplique.

---

## Checklist de materiales y preparación
- [ ] Python 3.10+ y permisos de instalación.  
- [ ] `streamlit`, `pandas`, `sqlalchemy`, `psycopg2-binary` (o `psycopg`), `python-dotenv`.  
- [ ] Servidor PostgreSQL accesible y credenciales por equipo.  
- [ ] CSV de práctica validado (sin PII, con diccionario de datos).  
- [ ] Plantillas: `requirements.txt`, `.env.example`, `schema.sql`, estructura de carpetas.  
- [ ] Proyector y conexión a internet estable.

---

## Procedimiento experimental (paso a paso) con control de riesgos
1. **Setup (venv)** — crear entorno virtual y activar. *Riesgo:* conflictos de versiones → *Mitigación:* `requirements.txt` fijo.  
2. **Instalación** — `pip install -U streamlit pandas sqlalchemy psycopg2-binary python-dotenv`. *Riesgo:* errores de red → reintentos/control de mirroring.  
3. **Credenciales** — crear `.env` con `DATABASE_URL` o variables `PG*`; probar conexión con SQLAlchemy. *Riesgo:* filtración de secretos → `.gitignore` y revisión visual.  
4. **Esquema** — definir DDL (`CREATE TABLE ...`) con tipos (`INTEGER`, `DATE`, `TIMESTAMP`, `NUMERIC`, `TEXT`) y **clave primaria**. *Riesgo:* malos tipos → validación previa en `pandas`.  
5. **Extracción** — leer CSV (`pandas.read_csv`) con `dtype` y `parse_dates`. *Riesgo:* tipos erróneos → esquema explícito.  
6. **Transformación** — limpieza (nulos, categorías, fechas). *Riesgo:* pérdida de información → registrar decisiones en README.  
7. **Carga** — `df.to_sql(..., if_exists='append')` o `COPY`/`executemany` para mejor rendimiento. *Riesgo:* duplicados → restricciones `UNIQUE`/índices y control por clave natural.  
8. **App** — `read_sql` con **consultas parametrizadas**; `st.dataframe`, `st.bar_chart`; filtros con `st.selectbox/multiselect`. *Riesgo:* inyección SQL → parámetros, no concatenar strings.  
9. **Rendimiento** — crear índices en columnas de filtro; limitar filas (`LIMIT`) y paginar. *Riesgo:* tiempos largos → explicar trade-offs.  
10. **Pruebas** — `streamlit run app.py`. *Riesgo:* puertos ocupados → cambiar puerto (`--server.port`).  
11. **Documentación** — README y capturas. *Riesgo:* falta de trazabilidad → subir versión final al LMS.

---

## Criterios de calidad de datos e integridad académica
- **Esquema documentado** (nombres, tipos, nulos permitidos, claves).  
- **Validaciones automáticas**: conteos, rangos, duplicados, tipos esperados.  
- **Restricciones en BD**: `NOT NULL`, `CHECK`, `UNIQUE`, PK/FK cuando aplique.  
- **Reproducibilidad**: script/Notebook + `requirements.txt` + `schema.sql`.  
- **Integridad académica**: citar fuentes de datos, no copiar código sin atribución, uso correcto de licencias.

---

## Plan de contingencias
- **BD no disponible:** conmutar a **SQLite** local para la demo (mismos pandas/SQLAlchemy), y reintentar carga a PostgreSQL luego.  
- **Errores de instalación:** proveer entorno portable preconfigurado o usar Codespaces alternativo.  
- **Tiempo insuficiente (ajuste a 180 min):** omitir segunda vista y simplificar validaciones al chequeo básico.

---

## Ticket de salida (plantilla)
- [ ] App en ejecución local con tabla + gráfico + filtro (consultas parametrizadas).  
- [ ] ETL ejecutado: filas cargadas = ____ ; duplicados eliminados = ____.  
- [ ] `.env` configurado y excluido del repo.  
- [ ] README con decisiones de limpieza, DDL y cómo ejecutar la app.

---

## Tarea para casa 
- Añadir **paginación** o **búsqueda** en la tabla.  
- Incorporar **gráfico alternativo** y **descarga** de datos filtrados.  
- Desplegar en **Streamlit Community Cloud** / servicio institucional con variables de entorno seguras.

---
