# 🚀 Ejercicio: Construcción de un Pipeline de Datos con PostgreSQL y Looker Studio

En este ejercicio vas a construir un pipeline de datos completo que conecte Python con PostgreSQL y Looker Studio. El objetivo es automatizar el flujo de datos: desde su extracción, limpieza y almacenamiento, hasta su visualización en un dashboard interactivo.

---

## 🧩 Objetivo

1. Leer las credenciales necesarias para conectarse a una base de datos PostgreSQL.
2. Establecer la conexión usando Python y la librería `SQLAlchemy`.
3. Ejecutar una consulta SQL que obtenga datos desde una tabla de la base de datos.
4. Realizar una limpieza básica de los datos obtenidos.
5. Guardar el DataFrame limpio como una nueva tabla en PostgreSQL.
6. Crear un nuevo proyecto en **Looker Studio**.
7. Conectar Looker Studio a la nueva tabla de la base de datos.
8. Crear visualizaciones gráficas interactivas con los datos procesados.

---

## 📋 Instrucciones

### 1. 📂 Leer credenciales desde un archivo `.env` o diccionario
- Incluye los siguientes datos:
  - `host`
  - `dbname`
  - `user`
  - `password`

### 2. 🧱 Conectarte a la base de datos PostgreSQL
- Usa `SQLAlchemy` o `psycopg2` para conectarte.

### 3. 📤 Ejecutar un `SELECT` para extraer los datos de una tabla (por ejemplo: `ventas_originales`)

### 4. 🧼 Limpieza de datos
- Elimina filas con valores vacíos (`NaN`).
- Corrige nombres o formatos si es necesario (por ejemplo, columnas de texto o fechas).
- Elimina duplicados.

### 5. 🧾 Guardar los datos limpios
- Crea una nueva tabla en la base de datos, por ejemplo: `ventas_limpias`.

### 6. 🧑‍💻 Crear un proyecto en Looker Studio
- Ve a [https://lookerstudio.google.com](https://lookerstudio.google.com).
- Crea un nuevo reporte.
- Agrega una fuente de datos tipo **PostgreSQL** con las mismas credenciales.
- Selecciona la tabla `ventas_limpias`.

### 7. 📈 Crear visualizaciones
- Agrega los siguientes elementos al dashboard:
  - Gráfico de barras: ventas por ciudad.
  - Línea de tiempo: evolución de ventas por fecha.
  - Tabla con totales y filtros por región o cliente.

---

## ✅ Resultado esperado

Al finalizar este ejercicio deberías tener:

- Un código en Python que ejecuta un pipeline ETL con PostgreSQL.
- Una nueva tabla limpia en la base de datos.
- Un dashboard en Looker Studio conectado a esa tabla, con gráficos dinámicos e interactivos.

---

💡 *Este flujo es el que muchas empresas usan en el mundo real para tomar decisiones basadas en datos.* ¡Tú también puedes hacerlo!


In [6]:
import pandas as pd

from utils import (
    conectar_postgresql,
    ejecutar_query,
    cargar_dataframe_postgresql,
    read_json_file,
    limpieza_general
)

In [3]:
credenciales = read_json_file('credentials.json')

In [5]:
conn = conectar_postgresql(credenciales)

✅ Conexión exitosa a PostgreSQL.


In [None]:
query = 'SELECT * FROM datos_transaccionales'
# query_2 = 'SELECT * FROM film'

# film = ejecutar_query(conn, query_2 )
df = ejecutar_query(conn, query )

✅ Consulta ejecutada exitosamente.
✅ Consulta ejecutada exitosamente.


  df = pd.read_sql_query(query, conn)


In [13]:
df_clean = limpieza_general(df)

📅 Columna 'sale_date' convertida a fecha.

📊 Tipos de datos:
sale_id                 int64
customer_id             int64
category               object
amount                  int64
sale_date      datetime64[ns]
dtype: object

🔍 Valores nulos por columna:
sale_id        0
customer_id    0
category       0
amount         0
sale_date      0
dtype: int64

✅ Limpieza general completada.


  df[col] = pd.to_datetime(df[col], errors="raise")


In [17]:
cargar_dataframe_postgresql(
    df_clean,
    'datos_transaccionales_limpios',
    credenciales
)

✅ Tabla 'datos_transaccionales_limpios' creada o reemplazada exitosamente.


True