<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_1_3_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lecci√≥n 1.3.5: BigQuery y Google Sheets: An√°lisis de Datos en la Nube

## 1. ¬øPor qu√© esta combinaci√≥n importa?

En el mundo real de datos, **no se trata de elegir herramientas, sino de combinarlas**. Google Sheets y BigQuery son dos caras de la misma moneda:

- **Google Sheets**: Agilidad para an√°lisis colaborativo y prototipado r√°pido
- **BigQuery**: Potencia industrial para datasets masivos
- **Juntas**: Flujo continuo desde la recolecci√≥n hasta el insight

> **Analog√≠a:** Sheets es tu taller de dise√±o √°gil, BigQuery es tu f√°brica a escala industrial. Ambos son necesarios.

**Ejemplo real:**
Un equipo de marketing usa Sheets para recoger datos de campa√±as v√≠a APIs, los procesa en BigQuery para an√°lisis cross-channel, y vuelve a Sheets para dashboards ejecutivos. **Todo integrado.**

---

## 2. Google Sheets: m√°s que una hoja de c√°lculo

Sheets ha evolucionado de herramienta de c√°lculo a **plataforma colaborativa de an√°lisis en la nube**.

**Ventajas clave:**
- ‚úÖ Colaboraci√≥n en tiempo real con historial de cambios
- ‚úÖ Integraci√≥n nativa con BigQuery, Data Studio, Apps Script
- ‚úÖ Automatizaci√≥n sin c√≥digo (macros, triggers)
- ‚úÖ Conectores directos a APIs y fuentes externas

**Funciones avanzadas:**
```excel
=QUERY(A1:G1000, "SELECT A, AVG(B) WHERE C = 'Premium' GROUP BY A")
=IMPORTXML("https://example.com", "//div[@class='price']")
=GOOGLEFINANCE("NASDAQ:GOOGL", "price", TODAY()-30, TODAY())
```

**Caso pr√°ctico:**
Un equipo de ventas usa Google Forms conectado a Sheets para capturar leads, aplica filtros colaborativos, crea gr√°ficos en tiempo real, y exporta autom√°ticamente a BigQuery para an√°lisis hist√≥rico.

---

## 3. BigQuery: el motor de datos enterprise

BigQuery es un **data warehouse serverless** que redefine lo que significa escalar: procesa terabytes en segundos sin gesti√≥n de infraestructura.

**Lo que lo hace √∫nico:**
- **Totalmente serverless**: Cero configuraci√≥n, cero servidores
- **Pago por uso**: Solo pagas por los datos que procesas
- **SQL est√°ndar**: Tu conocimiento funciona inmediatamente
- **ML integrado**: Crea modelos con SQL

**Ejemplo de consulta real:**
```sql
-- An√°lisis de cohorte de usuarios
WITH user_cohorts AS (
  SELECT
    user_id,
    DATE_TRUNC(DATE(signup_date), MONTH) as signup_month,
    DATE_DIFF(DATE(event_date), DATE(signup_date), MONTH) as months_active
  FROM `project.analytics.user_events`
  WHERE event_name = 'purchase'
)
SELECT
  signup_month,
  months_active,
  COUNT(DISTINCT user_id) as active_users,
  ROUND(COUNT(DISTINCT user_id) / MAX(COUNT(DISTINCT user_id))
        OVER(PARTITION BY signup_month), 2) as retention_rate
FROM user_cohorts
GROUP BY 1, 2
ORDER BY 1, 2;
```

**Impacto empresarial:** Una fintech analiza 100M de transacciones para detectar fraude en **8 segundos** vs 4 horas en sistemas tradicionales.

---

## 4. Cu√°ndo usar cada herramienta

| Aspecto | Google Sheets | BigQuery |
|---------|---------------|----------|
| **Volumen √≥ptimo** | Hasta ~100K filas | Millones a petabytes |
| **Colaboraci√≥n** | ‚≠ê‚≠ê‚≠ê Excelente | ‚≠ê Limitada |
| **Modelo costo** | Fijo (Workspace) | Por uso (almacenamiento + consultas) |
| **Velocidad** | Segundos-minutos | Segundos en cualquier volumen |
| **An√°lisis complejo** | Limitado (f√≥rmulas) | Ilimitado (SQL, ML, UDFs) |
| **Mejor para** | Prototipado, dashboards ligeros, datos operativos | ETL, an√°lisis hist√≥rico, ML |

> **Regla pr√°ctica:** Usa Sheets hasta ~100K filas o cuando la colaboraci√≥n es clave. Salta a BigQuery cuando necesites velocidad, escala o an√°lisis avanzado.

---

## 5. La integraci√≥n bidireccional

La verdadera magia surge cuando **conectas ambos mundos**.

### De Sheets ‚Üí BigQuery: Escalando el an√°lisis
**Caso t√≠pico:** Datos de encuestas o presupuestos que necesitan an√°lisis avanzado.

```sql
-- En BigQuery, accediendo a Sheets como tabla externa
SELECT
  department,
  AVG(budget_utilization) as avg_utilization
FROM `my-project.analytics.budget_tracking_sheets`
WHERE quarter = 'Q1-2024'
GROUP BY department;
```

### De BigQuery ‚Üí Sheets: Democratizando insights
**Caso t√≠pico:** Resultados de an√°lisis complejos para stakeholders no t√©cnicos.

```excel
=QUERY(IMPORTDATA("bigquery://my-project/sales_performance"),
       "SELECT region, sales_rep, revenue WHERE revenue > 50000")
```

**Flujo de trabajo completo:**
```
Datos (Forms/APIs)
  ‚Üí Sheets (recolecci√≥n)
  ‚Üí BigQuery (procesamiento)
  ‚Üí Sheets (visualizaci√≥n)
```

---

## 6. Caso de estudio: Startup de e-commerce

**Problema inicial:**
- Crecimiento 10x en 6 meses satura el an√°lisis en Sheets
- 5 hojas diferentes sin consolidar
- 4 horas diarias de consolidaci√≥n manual
- Imposible analizar tendencias hist√≥ricas

**Evoluci√≥n por fases:**

| Fase | Herramienta | L√≠mite encontrado |
|------|-------------|-------------------|
| **1-3 meses** | Solo Sheets | 50K filas ralentizan todo |
| **Mes 4** | Sheets + `QUERY()` | Consolidaci√≥n toma 2+ horas |
| **Mes 5+** | Sheets + BigQuery | ‚úÖ Sin l√≠mites |

**Soluci√≥n implementada:**
- Pipeline autom√°tico diario: Sheets ‚Üí BigQuery
- Consultas SQL unificando 2M+ transacciones
- Sheets como interfaz con datos actualizados
- An√°lisis de cohorte y CLV antes imposibles

**Resultados:**
- ‚è±Ô∏è Tiempo de an√°lisis: **4 horas ‚Üí 5 minutos**
- üìä Capacidad: **50K ‚Üí 2M+ filas**
- üí∞ ROI: **+15% en ingresos** (oportunidades de upsell)
- üéØ Precisi√≥n: Discrepancias **del 12% al 1%**

---

## 7. Configuraci√≥n pr√°ctica

### Conectar Sheets ‚Üí BigQuery:
1. En Sheets: *Datos ‚Üí Conectores ‚Üí BigQuery*
2. Seleccionar proyecto, dataset y tabla
3. Configurar actualizaci√≥n (horaria, diaria)

### Conectar BigQuery ‚Üí Sheets:
1. En BigQuery: Crear tabla externa desde Sheets
2. Especificar URL y rango
3. Definir schema autom√°tico o manual

### Optimizaci√≥n de costos en BigQuery:
- ‚úÖ Particionar tablas por fecha
- ‚úÖ Usar `SELECT` expl√≠cito (no `SELECT *`)
- ‚úÖ Aprovechar cache de consultas
- ‚úÖ Programar queries pesadas en horas valle

**Ejemplo de ahorro:** Una empresa optimiz√≥ consultas y redujo costos mensuales de **$800 a $220**.

---

## 8. Integraci√≥n con el ecosistema Google

| Herramienta | Rol | Valor |
|-------------|-----|-------|
| **Looker Studio** | Visualizaci√≥n | Dashboards profesionales |
| **Apps Script** | Automatizaci√≥n | Flujos personalizados |
| **Cloud Functions** | Serverless | Procesamiento event-driven |
| **Cloud Scheduler** | Orquestaci√≥n | Ejecuci√≥n programada |

**Arquitectura de referencia:**
```
Forms/APIs ‚Üí Sheets ‚Üí BigQuery ‚Üí Looker Studio ‚Üí Sheets (dashboards)
```

---

## 9. Resumen

**Google Sheets es ideal para:**
- ‚úÖ An√°lisis colaborativos en tiempo real
- ‚úÖ Prototipado r√°pido de dashboards
- ‚úÖ Datos operativos livianos (<100K filas)

**BigQuery es esencial para:**
- ‚úÖ Datasets masivos (millones+ de filas)
- ‚úÖ Procesamiento hist√≥rico completo
- ‚úÖ Machine Learning y an√°lisis predictivo
- ‚úÖ Performance cr√≠tico y escala

**La combinaci√≥n gana cuando:**
- ‚úÖ Necesitas agilidad con potencia
- ‚úÖ Tienes stakeholders no t√©cnicos
- ‚úÖ Est√°s escalando gradualmente
- ‚úÖ Quieres democratizar datos sin sacrificar capacidad

> **Clave estrat√©gica:** No las veas como competencia, sino como compa√±eras en diferentes etapas del journey de datos.

---

## 10. Referencias

### V√≠deos
- [Google BigQuery Tutorial](https://youtu.be/MH5M2Crn6Ag?si=2tqKyA9ERmRfkjKe)
- [Quick Data Analysis with Google Sheets](https://youtu.be/Y8jhi_yZKOg?si=iV4lDAddVxxygUMw)
- [Connect Google Sheets & BigQuery - Connected Sheets](https://youtu.be/sfgaZvAmcLs?si=bEWZP5h9VrR_shrO)

### Lecturas
- [Apps Script Documentation](https://developers.google.com/apps-script)
- [BigQuery SQL Reference](https://cloud.google.com/bigquery/docs/reference/standard-sql)
- [Using Connected Sheets | BigQuery](https://cloud.google.com/bigquery/docs/connected-sheets)
