In [1]:
import pandas as pd

# 🔄 ¿Qué es un Pipeline de Datos en Python?

Imagina que tienes que preparar una receta en la cocina. Para que el plato quede perfecto, necesitas seguir varios pasos: lavar los ingredientes, picarlos, cocinarlos, sazonar, etc. Un **pipeline de datos** es algo muy parecido, pero en lugar de preparar comida, preparamos datos 🥗➡📊.

Un *pipeline* (o "tubería") es una secuencia de pasos por donde pasan los datos para ser transformados. Cada paso hace algo con los datos: puede limpiarlos, convertirlos, analizarlos o visualizarlos.

## ✅ ¿Para qué sirve un pipeline?

- **Organizar** el trabajo con los datos.
- **Repetir procesos fácilmente** sin escribir todo desde cero.
- **Evitar errores**, ya que los pasos están bien definidos.
- Es muy útil cuando se trabaja con muchos datos o en equipo.

## 👀 Ejemplo de la vida real

Supongamos que tienes una lista de personas que se inscribieron a un curso, pero los datos están algo desordenados. Un pipeline podría:
1. Limpiar los nombres (quitar espacios o errores de escritura).
2. Eliminar registros vacíos o repetidos.
3. Calcular cuántos estudiantes hay por ciudad.
4. Mostrar los resultados en una tabla ordenada.

Al automatizar estos pasos con un pipeline, puedes repetir el proceso cada vez que lleguen nuevos datos sin hacerlo manualmente.


In [3]:
# 1. Creamos un "DataFrame" con datos simulados
data = pd.DataFrame({
    'Nombre': [' Ana ', 'Luis', 'ana', None, 'CARLOS', 'Luis'],
    'Ciudad': ['Bogotá', 'Medellín', 'Bogotá', 'Cali', 'Cali', 'Medellín']
})

# 2. Pipeline de procesamiento de datos paso a paso

# Paso 1: Eliminar espacios en los nombres y ponerlos en minúscula
data['Nombre'] = data['Nombre'].str.strip().str.lower()

# Paso 2: Eliminar filas con datos faltantes
data = data.dropna()

# Paso 3: Eliminar duplicados
data = data.drop_duplicates()

# Paso 4: Contar cuántas personas hay por ciudad
conteo_ciudades = data['Ciudad'].value_counts()

# Paso 5: Mostrar el resultado
print("Cantidad de personas por ciudad:")
print(conteo_ciudades)

Cantidad de personas por ciudad:
Ciudad
Bogotá      1
Medellín    1
Cali        1
Name: count, dtype: int64


# 🛠️ Pipeline de Datos (ETL) con PostgreSQL y Python

Un pipeline ETL (Extract, Transform, Load) es como una fábrica de datos. Cada letra representa una fase:

- **Extract (Extraer)**: Traemos datos desde una fuente, por ejemplo una base de datos.
- **Transform (Transformar)**: Limpiamos y organizamos los datos para que tengan sentido.
- **Load (Cargar)**: Guardamos los datos procesados en un nuevo lugar, como otra tabla o archivo, listos para análisis.

## 🧃 Caso de la vida real

Imagina que trabajas en una empresa que guarda información de ventas en una base de datos PostgreSQL. Pero esos datos están algo sucios: hay valores vacíos, nombres mal escritos y fechas en distintos formatos.

Queremos construir un pipeline que:

1. **Extraiga** los datos desde PostgreSQL.
2. **Limpie** errores comunes (como espacios extra o valores faltantes).
3. **Cargue** los datos limpios en una nueva tabla que luego se conectará a una herramienta de visualización como **Looker Studio**, para crear dashboards.

Este proceso permite automatizar el flujo de datos desde su origen hasta la visualización, ahorrando tiempo y evitando errores.


# 📊 ¿Qué es Looker Studio?

**Looker Studio** (antes llamado Google Data Studio) es una herramienta gratuita de Google que permite crear **dashboards interactivos** y **reportes visuales** usando datos de diferentes fuentes.

Es como hacer presentaciones, pero con datos vivos: si cambian los datos en la fuente, ¡se actualiza el gráfico automáticamente! 🔄

## 🧩 ¿Qué puedo hacer con Looker Studio?

- Mostrar **gráficos, tablas y mapas** con datos.
- Conectar a fuentes como: hojas de cálculo, bases de datos, Google Analytics, BigQuery o archivos CSV.
- Compartir dashboards con otras personas, como si fueran documentos de Google.
- Filtrar y explorar los datos fácilmente (sin necesidad de saber programar).

## 🌍 Caso de uso real

Supón que hiciste un análisis en Python de las ventas por ciudad de una empresa. Los datos limpios quedaron guardados en una tabla de PostgreSQL llamada `ventas_limpias`.

Con **Looker Studio**, puedes:

1. Conectarte a esa tabla directamente.
2. Crear un gráfico de barras con las ventas por ciudad.
3. Compartir el reporte con tu equipo para tomar decisiones basadas en datos.

Todo esto sin escribir ni una línea de código.

## 🪄 Ventajas para quienes no programan

- No necesitas saber Python ni SQL para usar Looker Studio.
- Es muy visual e intuitivo.
- Puedes construir reportes profesionales en poco tiempo.

---

### 🔌 ¿Cómo conecto Looker Studio a una base de datos?

1. Entra a: [https://lookerstudio.google.com](https://lookerstudio.google.com)
2. Crea un nuevo reporte.
3. Haz clic en "**Añadir datos**".
4. Elige la fuente: por ejemplo, **PostgreSQL**.
5. Escribe los datos de conexión: host, usuario, contraseña, nombre de la base de datos y tabla (como `ventas_limpias`).
6. Haz clic en **Conectar**, y ¡listo!

Ahora puedes crear gráficos con esos datos como si fuera una hoja de cálculo.

---

### 🎯 ¿Qué puedes visualizar?

- Tendencias de ventas por mes 📈
- Comparación de productos más vendidos 🥇
- Mapa de ventas por ciudad 🗺️
- Tablas con filtros interactivos 🔍
