# 4. Funciones de Agregación para el Análisis de Datos


In [1]:
# @title Preparación del entorno
!pip install tabulate
import sqlite3
from tabulate import tabulate

# Descargamos la base de datos sqlda
!curl https://raw.githubusercontent.com/limspiga/data-modeling/main/db/sqlda.sql -O

# Código auxiliar. Nota: ejecutar cuando se carge este libro.
def sql_exec_query(query):
  conn = sqlite3.connect('sqlda.sql')
  cur = conn.cursor()
  try:
    cur.execute(query)
    headers = [column[0] for column in cur.description]
    print(tabulate(cur,  headers=headers))
    # conn.commit()
  except Exception as e:
    print(str(e))
    # conn.rollback()
  cur.close()
  conn.close()

def sql_exec(query):
  conn = sqlite3.connect('sqlda.sql')
  cur = conn.cursor()
  try:
      cur.execute(query)
      conn.commit()
      print("Query executed successfully")
  except sqlite3.Error as e:
      print(str(e))
      conn.rollback()
  cur.close()
  conn.close()

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 60.5M  100 60.5M    0     0  14.6M      0  0:00:04  0:00:04 --:--:-- 14.6M



# Introducción
En el capítulo anterior, aprendiste a utilizar SQL para preparar conjuntos de datos para su análisis. En última instancia, el propósito de la preparación de datos es hacer que los datos sean adecuados para el análisis, de modo que puedas comprenderlos. Una vez que los datos han sido preparados, el siguiente paso es analizarlos. En general, los científicos de datos y los profesionales de la analítica intentarán comprender los datos resumiéndolos y buscando patrones de alto nivel. SQL puede ayudar en esta tarea principalmente mediante el uso de funciones de agregación. Estas funciones toman múltiples filas como entrada y devuelven nueva información basada en esas filas de entrada. Para comenzar, aprenderás acerca de las funciones de agregación.

En este capítulo, comprenderás los fundamentos de las funciones de agregación a través de los siguientes temas:

- Funciones de Agregación
- Funciones de Agregación con la Cláusula GROUP BY
- Funciones de Agregación con la Cláusula HAVING
- Uso de Agregaciones para Limpiar Datos y Examinar la Calidad de los Datos

# Funciones de Agregación
Además de simplemente ver filas individuales de datos, también es interesante comprender las propiedades de una columna o tabla completa. Por ejemplo, supongamos que acabas de recibir un conjunto de datos de muestra de una empresa ficticia llamada ZoomZoom, que se especializa en la venta de automóviles y scooters eléctricos. Te preguntas cuántos clientes contiene esta base de datos de ZoomZoom. Podrías seleccionar todos los datos de la tabla y luego ver cuántas filas se recuperaron, pero sería increíblemente tedioso hacerlo. Afortunadamente, SQL proporciona funciones que se pueden utilizar para realizar este tipo de cálculos en grandes grupos de filas. Estas funciones se llaman funciones de agregación.

Las funciones de agregación toman una o más columnas con múltiples filas y devuelven un número basado en esas columnas. La siguiente tabla proporciona un resumen de las principales funciones de agregación que se utilizan en SQL:

<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/cf9bf93b-3a6b-41d3-946d-eb670935630d.png?raw=true' width="500" />
<figcaption>
Figure 4.1: Major aggregate functions</figcaption></center>
</figure>

Las funciones de agregación más utilizadas con frecuencia incluyen SUM(), AVG(), MIN(), MAX(), COUNT() y STDDEV(). También notarás la función CORR(), que se discutió en el Capítulo 1, Comprensión y Descripción de Datos. SQL proporciona esta función para que no necesites calcularla manualmente.

Las funciones de agregación pueden ayudarte a realizar varias tareas de manera eficiente, como las siguientes:

- Las funciones de agregación se pueden utilizar con la cláusula WHERE para calcular valores agregados para subconjuntos específicos de datos. Por ejemplo, si deseas saber cuántos clientes tiene ZoomZoom en California, podrías utilizar la siguiente consulta:

In [2]:
sql_exec_query('''
SELECT
  COUNT(*)
FROM
  customers
WHERE
  state='CA';
''')
# Figure 4.2: Result of COUNT(*) with the WHERE clause

  COUNT(*)
----------
      5038
