# Fundamentos de SQL para análisis

# Introducción REDUCIOR

 Dos de las herramientas más importantes en esta revolución son la
 - base de datos relacional y su
 - lenguaje principal, el Lenguaje de Consulta Estructurado (SQL).


 Estas dos tecnologías han sido pilares del procesamiento de datos y siguen siendo la columna vertebral de la mayoría de las empresas que manejan grandes cantidades de datos. Las empresas utilizan bases de datos relacionales como el método principal para almacenar gran parte de sus datos. Además, las empresas toman muchos de estos datos y los colocan en bases de datos especializadas llamadas almacenes de datos para realizar análisis avanzados sobre sus datos. Casi todos estos almacenes de datos se acceden utilizando SQL.

Las bases de datos relacionales requieren que los datos se organicen en un formato fijo y se procesen según un algoritmo predefinido. En los últimos años, ha surgido un tipo de bases de datos llamadas NoSQL. Creadas originalmente como una alternativa de almacenamiento de datos, estas bases de datos NoSQL utilizan tecnologías que son diferentes de las operaciones relacionales y SQL y pueden lograr lo que las bases de datos relacionales tradicionales no pueden hacer o no son buenas haciendo, como cálculos/distribuciones distribuidas, procesamiento de datos no formateados (como tweets) y lectura/escritura no atómica. Sin embargo, estas bases de datos NoSQL generalmente se centran en un escenario de uso específico y aún no ofrecen una plataforma más genérica que pueda satisfacer las necesidades de la mayoría de los patrones de uso de bases de datos comunes. Como tal, estas bases de datos rápidamente evolucionaron de "No SQL" a "No Solo SQL", significando que son parte de un ecosistema más grande para la gestión de datos, junto con bases de datos relacionales y SQL.

En comparación con las bases de datos NoSQL, las bases de datos relacionales tienen varias ventajas que las hacen el centro de los ecosistemas de gestión de datos. La razón principal es que las bases de datos relacionales mantienen un buen equilibrio de características y rendimiento para una amplia variedad de operaciones de datos, lo que las convierte en buenos candidatos para una plataforma de gestión de datos genérica. La segunda razón es que todas las bases de datos relacionales usan SQL, que tiene una sólida teoría matemática detrás y es fácil de aprender. En general, las bases de datos relacionales y SQL sirven como el mejor lugar para comenzar su viaje en análisis de datos. La mayoría de las personas encontrarán que solo con SQL es suficiente para sus necesidades. Solo una pequeña fracción de las personas necesitará las funcionalidades proporcionadas por una base de datos NoSQL. Pero incluso para estos, SQL seguirá siendo una excelente base para fines analíticos de datos.

El Mundo de los Datos

Los datos se pueden dividir en tres categorías principales:
- estructurados,
- semi-estructurados y
- no estructurados.





```text
                  ,--------------.                   
                  |     Data.    |                                    
                  `--------------'                                         
                          |                          
,--------------.  ,---------------.   ,--------------.
|  Structured  |  |Semi Structured|   | Ustructured. |
`--------------'  `---------------'   `--------------'

```
Figure 2.1: The classification of types of data



Los datos estructurados tienen una definición atómica para todas las variables, como el tipo de datos, rango de valores y significado de los valores. En muchos casos, incluso el orden de las variables está claramente definido y estrictamente regulado. Por ejemplo, el registro de un estudiante en una tarjeta de inscripción escolar contiene un número de identificación, nombre y fecha de nacimiento, cada uno con un claro significado y almacenado en orden.
Los datos no estructurados, por otro lado, no tienen una definición tan clara como los datos estructurados y, por lo tanto, es más difícil de extraer y analizar. Puede ser algún bloque binario que provenga de dispositivos electrónicos, como archivos de video y audio. También puede ser una colección de tokens de entrada naturales (palabras, emojis), como publicaciones en redes sociales y discursos humanos.
Los datos semi-estructurados generalmente no tienen un formato y significado predefinidos, pero cada uno de sus valores de medición está etiquetado con la definición de esa medición. Por ejemplo, todas las casas tienen una dirección. Pero algunas pueden tener un sótano, o un garaje, o ambos. También es posible que los propietarios agreguen mejoras que no se pueden esperar en el momento en que se registra la información de esta casa. Todos los componentes en estos datos tienen definiciones claras, pero es difícil crear una lista predefinida para todas las posibles variables, especialmente para las variables que pueden surgir en el futuro. Por lo tanto, estos datos de la casa son semi-estructurados.
Bases de Datos Relacionales y SQL
Una base de datos relacional es una base de datos que utiliza el modelo relacional de datos. El modelo relacional, inventado por el Dr. Edgar F. Codd en 1970, organiza los datos como relaciones, o conjuntos de tuplas. Tupla es el término matemático para una serie de atributos agrupados juntos en un orden particular. Un nombre más común (y más práctico) para una tupla es un registro. Cada registro consta de una serie de atributos que generalmente describen el registro.

Por ejemplo, una empresa de bienes de consumo de rápido movimiento quiere rastrear a sus clientes. Pueden guardar la información del cliente en una relación llamada customer_info (información del cliente). Cada registro en esta relación contiene detalles sobre un cliente. Los atributos en cada registro incluyen información como el apellido del cliente, nombre, edad, fecha de inscripción y dirección de entrega. Esta relación y sus dos primeros registros se verían así:

| ID | Last Name | First Name | Age |
|---|---|---|---|
| 1 | Smith | John | 27 |
| 2 | Higgins | Mary | 53 |

Como puede ver, cada relación es efectivamente una tabla bidimensional que se parece a una hoja de cálculo de Excel. Por lo tanto, cuando se implementa en una base de datos relacional, estas relaciones se llaman tablas. Cada tabla está compuesta por filas y columnas. Cada fila de la tabla es un registro, y los atributos se representan como columnas de la tabla. No puede haber columnas duplicadas y las columnas deben seguir el mismo orden en todas las filas. Cada columna también tiene un tipo de datos que describe el tipo de datos en la columna.

Aunque no es técnicamente necesario, la mayoría de las tablas en una base de datos relacional tienen una columna (a veces un grupo de columnas) denominada clave primaria, que identifica de manera única una fila de la base de datos. En el ejemplo mostrado en la Figura 2.2, cada fila contiene una columna llamada ID. Este registro, como sugiere el nombre, es un atributo que se puede usar para identificar de manera única este registro. Se conoce como clave relacional. En todas las demás columnas, puede tener datos duplicados en diferentes filas. Pero en la(s) columna(s) de clave primaria, los datos deben ser únicos.

La mayoría de las operaciones en una base de datos relacional, y en todos los sistemas de gestión de datos, se organizan alrededor de tablas y los datos dentro de ellas. En general, pueden categorizarse en cuatro grupos: crear, leer, actualizar y eliminar. Para utilizar cualquier dato, primero debe crear la definición del conjunto de datos, luego crear los registros de datos individuales uno por uno y colocarlos en el conjunto de datos. Una vez que se crea un conjunto de datos, puede leer toda la información de él. Si hay algún cambio en los datos, necesita actualizar los registros afectados.
Finalmente, cuando ya no necesita los datos, querrá eliminar los registros para ahorrar costos de almacenamiento y aumentar el rendimiento. Si no necesita este conjunto de datos, incluso puede eliminar todo el conjunto de datos eliminando su definición de la base de datos. Estas operaciones, por el orden de la posición de cada operación en el ciclo de vida de un conjunto de datos, generalmente se llaman CRUD. CRUD significa crear, leer, actualizar y eliminar.

En las bases de datos relacionales, todas estas operaciones se llevan a cabo utilizando SQL. Aprenderá todas las declaraciones SQL relacionadas en este y los próximos capítulos.

# Ventajas y Desventajas de las Bases de Datos SQL

Las bases de datos relacionales son la principal herramienta utilizada para almacenar y procesar datos estructurados.

Desde el lanzamiento de Oracle Database en 1979, SQL se ha convertido en un estándar de la industria para datos estructurados en casi todas las aplicaciones informáticas, y con buenas razones.

Las bases de datos SQL ofrecen una serie de ventajas que las convierten en la primera opción para muchas aplicaciones:

- Intuitivo:** Las relaciones representadas como tablas sirven como una estructura de datos común que casi todos entienden. Como tal, trabajar con y razonar sobre bases de datos relacionales es mucho más fácil que hacerlo con otros modelos.
- Eficiente:** Utilizando una técnica conocida como normalización, las bases de datos relacionales permiten la representación de datos sin repetirlos innecesariamente. Como tal, pueden representar grandes cantidades de información utilizando menos espacio. Esta menor huella de almacenamiento también permite reducir los costos operativos, haciendo que las bases de datos relacionales bien diseñadas sean rápidas de procesar.
- Declarativo:** SQL es un lenguaje declarativo, lo que significa que cuando escribes código, solo necesitas decirle a la computadora qué datos quieres, y la base de datos se encarga de determinar cómo ejecutar el código SQL. Nunca tienes que preocuparte por decirle a la computadora cómo acceder y extraer datos de la tabla.

- Robusto:** La mayoría de las bases de datos SQL populares tienen una propiedad conocida como cumplimiento de atomicidad, consistencia, aislamiento y durabilidad (ACID), que garantiza la validez de los datos, incluso si el hardware falla.

Dicho esto, aún existen algunos inconvenientes con las bases de datos SQL, que son los siguientes:

- Especificidad relativamente baja:** Si bien SQL es declarativo, su funcionalidad a menudo puede estar limitada a lo que ya se ha programado en él. Aunque la mayoría del software de bases de datos relacionales populares se actualiza constantemente con nuevas funcionalidades que se construyen todo el tiempo, puede ser difícil procesar y trabajar con estructuras de datos y algoritmos que no están programados en una base de datos relacional.
- Escalabilidad limitada:** Las bases de datos SQL son increíblemente robustas, pero esta robustez tiene un costo. A medida que la cantidad de información que tienes se duplica, el costo de los recursos aumenta más del doble. Cuando se involucran volúmenes de información muy grandes, otros almacenes de datos, como las bases de datos NoSQL, pueden ser eficientes.

- Sacrificar rendimiento por consistencia:** Las bases de datos relacionales generalmente están diseñadas para la consistencia, lo que significa que tomarán medidas adicionales para asegurarse de que varios usuarios verán los mismos datos cuando intenten acceder/modificar los datos al mismo tiempo. Para lograr esto, las bases de datos relacionales implementan algunos mecanismos complejos de verificación y bloqueo de datos en su lógica operativa. Para escenarios de uso que no requieren consistencia, especialmente para operaciones de alto rendimiento como motores de búsqueda o sitios de redes sociales, esto es una carga innecesaria y perjudicará el rendimiento de la aplicación.
- Falta de capacidad de procesamiento de datos semi-estructurados y no estructurados:** La teoría fundamental en la que se basa SQL es la teoría relacional, que, por definición, solo maneja datos estructurados. Las bases de datos relacionales pueden almacenar y recuperar datos semi-estructurados y no estructurados. Pero procesar estos datos requiere potencia de procesamiento y funcionalidades que van más allá del SQL estándar. Los capítulos posteriores de este libro cubrirán algunos ejemplos de este tipo de procesamiento.

# Sqlite Sistema de Gestión de Bases de Datos Relacionales (RDBMS)
En cualquier sistema informático de producción, los datos fluyen constantemente de entrada y salida y eventualmente se almacenan en hardware de almacenamiento. Deben ser recibidos adecuadamente, almacenados con la ubicación registrada para que puedan ser recuperados más tarde, recuperados según lo solicitado por el usuario y enviados en el formato adecuado. Estas tareas son gestionadas por software comúnmente referido como un sistema de gestión de bases de datos relacionales (RDBMS). SQL es el lenguaje utilizado por los usuarios de un RDBMS para acceder e interactuar con una base de datos relacional.

Hay muchos tipos diferentes de RDBMS. Pueden clasificarse de manera general en dos grupos, comerciales y de código abierto. Estos RDBMS difieren ligeramente en la forma en que operan con los datos e incluso en algunas partes menores de la sintaxis de SQL. Existe un estándar del Instituto Nacional de Estándares Americano (ANSI) para SQL, que es seguido en gran medida por todos los RDBMS. Sin embargo, cada RDBMS puede tener sus propias interpretaciones y extensiones del estándar.

En este curso, utilizarás uno de los RDBMS de código abierto más populares,

** El contenedor de Colab (temporal) servirá de dispositivo de almacenamiento en el que se guarda la data.  Los usuarios se comunican con el software del servidor a través de una herramienta cliente. Hay muchas herramientas cliente populares entre las que puedes elegir.  Por el resto de este curso, usarás Colab para operaciones SQL.

Aquí está la lista de las tablas en la base de datos sqlda, así como una breve descripción para cada tabla:

| **Nombre de la tabla**                   | **Descripción**                                                                                                                                                         |
|-----------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| closest_dealerships                     | Contiene la distancia entre cada cliente y concesionario                                                                                                               |
| countries                               | Una tabla vacía con columnas que describen países                                                                                                                      |
| customer_sales                          | Contiene datos brutos en un formato semi-estructurado de algunos registros de ventas                                                                                    |
| customer_survey                         | Contiene retroalimentación con calificaciones de los clientes                                                                                                          |
| customers                               | Contiene información detallada para todos los clientes                                                                                                                 |
| dealerships                             | Contiene información detallada para todos los concesionarios                                                                                                           |
| emails                                  | Contiene los detalles de los correos electrónicos enviados a cada cliente                                                                                              |
| products                                | Contiene los productos vendidos por ZoomZoom                                                                                                                           |
| public_transportation_by_zip            | Contiene la medida de disponibilidad de transporte público en diferentes códigos postales en Estados Unidos                                                            |
| sales                                   | Contiene los registros de ventas de ZoomZoom basados en un registro por cliente por producto                                                                           |
| salespeople                             | Contiene los detalles de los vendedores en todos los concesionarios                                                                                                     |
| top_cities_data                         | Contiene algunos datos agregados sobre el número de clientes en diferentes ciudades                                                                                     |


# Ejercicio 2.01: Ejecutando Tu Primera Consulta SELECT
En este ejercicio, utilizarás pgAdmin para conectarte a una base de datos de muestra llamada ZoomZoom en tu servidor PostgreSQL y ejecutarás una consulta SQL básica.

1. Descarga la base de datos sqlda

In [None]:
import sqlite3

# Descargamos la base de datos sqlda
!curl https://raw.githubusercontent.com/limspiga/data-modeling-for-marketing/main/db/sqlda.sql -O

2. Esta base de datos sqlda.sql ha sido creada con un conjunto de datos de muestra para una compañía ficticia llamada ZoomZoom, la cual se especializa en la venta de automóviles y scooters eléctricos. ZoomZoom vende a través de internet y su flota de concesionarios. Cada concesionario tiene un vendedor. Los clientes comprarán un producto y opcionalmente participarán en una encuesta. Periódicamente, ZoomZoom también enviará correos electrónicos promocionales con asuntos significativos a los clientes. Se registran las fechas en que se envía, se abre y se hace clic en el correo electrónico, así como el asunto del correo y el cliente receptor.

  Escribe la siguiente consulta en el terminal:

In [None]:
# Create a connection to the database
conn = sqlite3.connect('sqlda.sql')

# Creamos un cursor de la bd
cur = conn.cursor()

# Creamos un query/consulta
cur.execute('''
  SELECT first_name
  FROM customers
  WHERE state='AZ'
ORDER BY first_name;''')

# impirmir los registros traidos
for row in cur:
  print(row)

conn.close()

La consulta SQL que acabas de ejecutar en este ejercicio es una sentencia SELECT. Aprenderás más detalles sobre esta sentencia en la siguiente sección.