[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/m-durand/propedeutico_python/blob/main/notebooks/7_SQL.ipynb)

# Propedéutico a programación con Python.

**Verano 2023, por el Centro de Ciencia de Datos, EGobiernoyTP.**

## Sesión 7: SQL básico

1. Introducción
    * Bases de datos
    * Lenguaje SQL
2. Establecer conexiones con las bases de datos
    * sqlite 
    * psycopg2 
3. Acciones básicas con SQL
    * Instrucciones desde Python
    * Obtener información con SQL
    * Modificar información con SQL
    
---
# 1 Introducción

## Bases de datos

Una **base de datos** es una recopilación de datos estructurados, que normalmente se almacena de forma electrónica en un sistema informático. Sabemos que las hojas de cálculo son modos cómodos de almacenar información pero se dinstinguen de las bases de datos en que las **hojas de cálculo** están diseñadas para un pequeño número de usuarios que no necesiten hacer manipulación de datos muy complicadas. Mientras que las bases de datos están diseñadas para contener recopilaciones mucho más grandes de información, permiten que muchos usuarios accedan y consulten los datos de forma rápida y segura al mismo tiempo; y permiten interacciones mucho más complejas con los datos.

Existen muchos tipos diferentes de bases de datos, normalmente se clasifican respecto a su estructura. Las que utilizarás usualmente se llaman **"bases de datos relacionales"**, estas últimas se organizan como un conjunto de tablas con columnas y renglones. Dicha estructura proporciona la forma más eficiente y flexible de acceder a información. Sin embargo, debido a las necesidades particulares de distintos proyectos u organizaciones existen otras estructuras. Por ejemplo, a medida que las aplicaciones web se han vuelto más comunes y complejas, se han creado bases de datos que permite interactuar con datos no estructurados y semiestructurados. 

Generalmente, las bases de datos se guardan en **servidores** (computadoras en la nube) dedicados exclusivamente para el mantenimiento y manejo de datos. En la maestría utilizarás Amazon Simple Storage Service (Amazon S3), es un servicio de almacenamiento de objetos similar a Drive pero que puede extenderse. Se puede almacenar y proteger cualquier tipo de objeto y cantidad de datos para prácticamente cualquier caso de uso.

Para interactuar con las bases de datos se requiere de un software, estos programas sirven como una interfaz para que los usuarios puedan, administrar la información. Un sistema de administración de bases de datos permite crear, editar, acceder, modificar, actualizar y controlar los datos, además de controlar accesos, administrar seguridad, respaldos y restauración de los mismos. En ocasiones, el software de base de datos también se denomina **"sistema de gestión de bases de datos" (DBMS)**. Existen distintos DBSM, durante la maestría utilizarás PostgreSQL. Generalmente, al conjunto de base de datos y el software para administrarla se le llama "base de datos" también.




---

## Lenguaje SQL

La mayoría de los softwares de bases de datos utilizan el lenguaje estándar de consulta estructurada SQL (Structured Query Language_) para escribir y consultar datos.  Con SQL puedes almacenar, manipular y recuperar información en la tabla o sobre ella. Específicamente, además de crear bases de datos te permite hacer las siguientes actividades con una base de datos:

* hacer búsquedas 
* obtener datos
* insertar datos
* actualizar datos
* borrar elementos (renglones/columnas/tablas)
* crear tablas 
* automatizar procedimientos almacenados
* definir permisos sobre tablas y procedimientos

A lo largo de este tutorial lo exploraremos con más detalle.


# 2 Establecer conexiones con las bases de datos

Algunos paquetes para interactuar entre python y bases de datos relacionales son `psycopg2` y `sqlite`, ambos utilizan SQL. El que utilizarás más durante la maestría es `psycopg2` y lo usarás para interactuar con servidores. Sin embargo, para enseñarte el funcionamiento de SQL aquí usaremos bases de datos locales con ayuda de `sqlite`.

---

## Establecer conexión con sqlite

Primero cargamos la librería:

In [None]:
import sqlite3

Para fines de la sesión de hoy utilizamos una base de datos local para mostrar cómo puedes cargar datos con sql. 
La base se llama `flights` y está en la carpeta `datos` y se llama `flights.db`. Antes, como utlizaremos una base de datos local desde Colab necesitamos indicar a Colab que utlizaremos archivos de nuestra unidad de Google Drive:

In [None]:
from google.colab import drive  # google es una librería/paquete tiene un módulo que se llama colab y de ese módulo importamos la función drive
drive.mount('/content/drive', force_remount=True)  # indicamos que utlizaremos archivos de nuestra unidad de Google Drive

# guardamos una ruta de los datos en Drive
gdrv_file = '/content/drive/MyDrive/propedeutico_python-main/datos/flights.db'

Después generas una conexión con la base de datos dicha conexión permite a Python saber en dónde se encuentra la base con la que estarás trabajando. Si no existiera una base con ese nombre entonces `sqlite3` la crearía implícitamente.

In [None]:
con = sqlite3.connect(gdrv_file)
con

## Establecer conexión a través de psycopg2

En el caso de psycopg2, para establecer la conexión a bases de datos (del tipo PSQL) necesitas las siguientes líneas de código, así como la información que se enumera:


```
# Importas paquete
import psycopg2

# Estableces conexión: 
psconn = psycopg2.connect(host="mouse.db.elephantsql.com", # 1. Dirección de la base
                          port = 5432,                     # 2. Puerto de conexión
                          database="base_mouse",           # 3. Nombre de la base
                          user="usuario-n",                # 4. Nombre de usuario
                          password="your-password")        # 5. Contraseña
                          

```


La información numerada se asigna y proporciona generalmente por el administrador/dueño de la base de datos. Esto es para tener mayor seguridad y control de la información.

---


# 3 Obtener información con SQL

Una vez que tienes una conexión entre Python y la base de datos, puedes utilizar instrucción escritas en el lenguaje SQL para interactuar con ella. 

Una instrucción (o _query_) es simplemente una oración que puede tener distintos comandos (o palabras clave) que realizan acciones sobre una base de datos o una tabla.

Un ejemplo es el siguiente:

`SELECT * FROM airlines;`

en este caso las palabras clave están escritas con mayúsculas y hacen lo siguiente:

- `SELECT` : extrae información
- `*` : selecciona todas las columnas
- `FROM` : de 
- `airlines` : tabla airlines
- `;` : termina instrucción

Las palabras clave no distinguen entre mayúsculas y minúsculas. Por ejemplo, `select` es equivalente a `SELECT`. Pero es recomendable escribir en mayúsculas pues el estándar en varios proyectos. El punto y coma indica que una instrucción acaba y permite separarlo de otros y ejecutarlos en una misma llamada.

En la siguiente celda guardamos la instrucción en una cadena de texto de Python para poder ejecutarla a través de Python. Las instrucciones se pueden ejecutar a través de Python -como lo mostraremos en este tutorial- o a través de una terminal sin requerir Python.


In [None]:
# nota aunque hemos utilizado " . . . " o ' . . . ' para definir strings en Python, 
# ''' . . . ''' permite definir strings que tengan saltos de línea (por ello se utiliza en ocasiones para realizar comentarios en el código)
q = '''
    SELECT 
        * 
    FROM 
        airlines
        ;
    '''

Así, en la siguiente celda, con la instrucción ``q`` obtendremos todos los datos de la tabla `airlines` a este notebook. Lo haremos a través de la conexión recién creada, y para que el formato de las interacciones con la tabla sea estético utilizaremos `pandas` (se puede cargar con un formato más simple utilizando sólo funciones `sqlite`).

In [None]:
import pandas as pd  

In [None]:
df = pd.read_sql(q, con)  
df

Con la siguiente instrucción en lugar de obtener todas las columnas de la tabla (`*`) podemos obtener sólo algunas columnas (`name`, `country`, `active`):

In [None]:
q = '''
    SELECT 
        name, country, active
    FROM 
        airlines
        ;
    '''
df = pd.read_sql(q, con)
df

Observa que para escribir instrucciones en SQL no se necesita indentado y la estructura vertical que hemos ocupado, pero es otro estándar que facilita la lectura. Por ejemplo, la definición de _q_ de la celda anterior es equivalente a:

`'SELECT name, country, active FROM airlines;'`

---

La columna `active` de la tabla indica si la aerolínea se encuentra activa. Podemos hacer la misma búsqueda anterior pero obteniendo solamente aerolíneas activas, con ayuda el comando `WHERE`:

In [None]:
q = '''
    SELECT 
        name, country, active
    FROM 
        airlines
    WHERE
        active="Y"
    '''
df = pd.read_sql(q, con)
df

Otro comando útil es `ORDER BY`. Naturalmente, permite ordenar la tabla de salida respecto a alguna columna de interés. Podemos, por ejemplo, ordenar la salida anterior alfabéticamente respecto al nombre de la aerolínea:

In [None]:
q = '''
    SELECT 
        name, country, active
    FROM 
        airlines
    WHERE
        active="Y"
    ORDER BY
        name
    '''
df = pd.read_sql(q, con)
df.head(20)

Si los quieres visualizarlo en orden inverso simplemente agrega la palabra clave `DESC` después del nombre de la columna que estás ocupando para ordenar, es decir:

In [None]:
q = '''
    SELECT 
        name, country, active
    FROM 
        airlines
    WHERE
        active="Y"
    ORDER BY
        name DESC
    LIMIT 
        20
    '''
df = pd.read_sql(q, con)
df

En la celda anterior visualizamos únicamente los primeros 20 renglones con ayuda del método `head()` de `pandas`. Podemos restringirnos a los primeros "n" renglones directamente desde SQL con el comando `LIMIT`:

In [None]:
q = '''
    SELECT 
        name, country, active
    FROM 
        airlines
    WHERE
        active="Y"
    ORDER BY
        name
    LIMIT 
        20
    '''
df = pd.read_sql(q, con)
df

En la condición de `WHERE` de la celda anterior utilizamos la operación de comparación "igual" (`=`). SQL acepta distintos operadores de comparación y lógicos, algunos otros son:

* `>`: mayor que
* `<`: menor que 
* `!=`: distinto de
* `AND`: verdadero si dos expresiones son verdaderas.
* `IN`: verdadero si la expresión está en una lista de expresiones
* `NOT`: regresa el valor inverso de la expresión
* `OR`: verdadero si alguna expresión es verdadera
* `BETWEEN`: verdadero si la expresión está dentro de un rango de valores

---

Enseguida recapitulamos los comandos que hemos visto y que son de los más útiles de SQL: 

* `SELECT` - extrae información de la tabla.
* `FROM`- indica de cuál tabla se obtendrá la información.
* `WHERE` - filtra la salida de la instrucción basándose en una condición.
* `ORDER BY` - ordena la tabla de salida.
* `LIMIT`- se limita a las primeros 'n' renglones de la tabla de salida.

Otros comandos muy útiles son:

* `GROUP BY` - agrupa renglones que tienen los mismos valores en cierta(s) columna(s)
en renglones que las resumen. Normalmente se utiliza en conjunto con los comandos `COUNT`, `AVG`, `SUM`, `MIN` o `MAX`; éstos últimos se llaman funciones agregadas pues hacen operaciones en *grupos* de renglones (puede ser en todos los renglones) de columnas numéricas.

A continuación vemos un ejemplo de aplicación de `GROUP BY` con `COUNT`:

In [None]:
q = '''
    SELECT 
        country, COUNT(name), COUNT(active)
    FROM 
        airlines
    GROUP BY
        country
    '''
df = pd.read_sql(q, con)
df

**Ejercicio 1**

En la misma base de datos existe otra tabla llamada "airports" en este ejercicio investigarás cuáles son la cuidades con más aeropuertos. Para ello, realiza las siguientes tareas en orden (haz una query por tarea):

1. Para conocer las variables de la tabla _airports_ visualízala.  Observa que puedes utilizar la misma conexión `con` pues las tablas pertenecen a la misma base. Observa que cada renglón representa un aeropuerto.
2. Con ayuda de `GROUP BY` y `COUNT` cuenta el número de aeropuertos por país; ¿cuál columna debes utilizar para agrupar?; ¿cuál columna puedes utlizar para contar?
3. Ordena a los países de mayor a menor número de aeropuertos. Para ello con `SELECT` visualiza solamente `country` y la columna `COUNT(<columna que estés contando>)`. ¿Debes de incluir `DESC` o no?
4. Visualiza las primeras 20 posiciones utilizando SQL.

 

In [None]:
# respuestas 



Otros comandos utilizados a menudo son:

* `HAVING` -  es análogo a WHERE pero en lugar de actuar sobre condiciones que incluyen directamente a las columnas (por ejemplo, WHERE `active="Y"`), actúa sobre condiciones de columnas previamete procesadas (por ejemplo, HAVING `COUNT(active) > 5`).
* `JOIN` - es similar al comando `merge` de `pandas`, es decir, sirve para unir tablas basándose en los valores de de cierta columna.

---

Como hemos visto en los ejemplos anteriores, podemos ir agregando comandos a una instrucción. Al utilizar el lenguaje SQL es bueno tener mente que el orden en el que se escriben las instrucciones es diferente del orden en el que se ejecutan:

| Orden de escritura | Orden de ejecución | 
|--------------------|--------------------|
| SELECT             | FROM               | 
| FROM               | JOIN               |  
| JOIN               | WHERE              |  
| WHERE              | GROUP BY           | 
| GROUP BY           | HAVING             | 
| HAVING             | SELECT             | 
| ORDER BY           | ORDER BY           | 
| LIMIT              | LIMIT              | 

---

Veamos un ejemplo de `JOIN`.  En la misma base de datos existe una última tabla llamada "routes":

In [None]:
q = '''
    SELECT 
        *
    FROM 
        airports
    ;
    '''
df = pd.read_sql(q, con)
df

En la celda siguiente hemos hecho una instrucción que une las tablas _routes_ y _airports_. La instrucción `JOIN` necesita ser acompañada de los siguientes elementos:

* SELECT seguido de cuáles columnas seleccionarás de las tablas que estás uniendo en el formato:

`<tabla>.<columna de la tabla>`
* FROM seguido de la tabla que utilizarás de base
* JOIN seguido de la tabla con la cuál la unirás
* ON seguido de las columnas que utilizarás para basar la unión: se concatenarán renglones de las tablas que
tengan coincidencias exactas en esas columnas. El formato debe ser:

`ON  <tabla 1>.<columna de la tabla 1> = <tabla 2>.<columna de la tabla 2>`

En el ejemplo que sigue, `q` regresa las columnas `source` y `dest` de  _routes_ y las columnas `name` y `country` de _airports_. La instrucción `JOIN` une las tablas basándose en coincidencias entre la columna `source` de _routes_ y la columna `code` de _airports_.

In [None]:
q = '''
    SELECT 
        routes.source, routes.dest, airports.name, airports.country
    FROM 
        routes
    JOIN
        airports
    ON 
        routes.source = airports.code
        
    '''
df = pd.read_sql(q, con)
df

**Ejercicio 2**

Investigarás a cuáles 20 ciudades (y en qué países) a las que **llegan** más rutas. Considera los siguientes preguntas en orden para construir la instrucción: 

1. Como _routes_ no tiene el nombre de las ciudades utiliza `JOIN` para obtener los nombres a partir de la tabla _airports_. ¿Qué columnas necesitarás para contestar la pregunta? ¿Qué columna utlizarás para hacer la unión?
2. ¿Qué columna de _routes_ debes utilizar para el conteo? ¿**Cuáles** columnas de _routes_ debes utilizar para el agrupamiento?


In [None]:
# respuesta



## Modificar bases de datos

Los comandos anteriores nos han permitido interactuar con una tabla sin modificarla. Enlistamos ahora algunos de los comandos más utilizados para modificarlas:


* `CREATE DATABASE` - crea una base de datos
* `ALTER DATABASE` - modifica una base de datos
* `CREATE TABLE` - crea una tabla
* `ALTER TABLE` - modifica una tabla
* `INSERT INTO` - inserta datos nuevos en una tabla
* `UPDATE` - modificar datos existentes de una tabla
* `DELETE` - borra datos de una tabla
* `DROP TABLE` - borra una tabla

---

Enseguida veremos ejemplos de aplicación de algunas de ellas.

Para ejecutar instrucciones que contengan los comandos anteriores no podemos ocupar `pandas`, solamente utilizaremos `sqlite`. El primer paso es generar un cursor, es un canal necesario para interactuar con bases de datos en `sqlite`. Éste permite hacer modificaciones, revisarlas, confirmarlas o en algunas ocasiones deshacerlas si algo salió mal.


En la siguiente celda generamos un cursor a partir de la conexión `con` que ya teníamos y que está asociada a la misma base de datos `flights.db`.

In [None]:
cur = con.cursor()

Ahora construimos una tabla llamada "Estudiantes" dentro de `flights.db`. La nueva tabla tiene cuatro columnas: ID, Apellido, Nombre, Comida_favorita; después del nombre de cada columna especificamos el tipo de datos que puede recibir dicha columna, por ejemplo ID recibe únicamente enteros, las demás columnas sólo reciben cadenas de texto `varchar` es el nombre que SQL les da ese tipo de objetos.

In [None]:
q = """CREATE TABLE Estudiantes (
    ID int,
    Apellido varchar,
    Nombre varchar,
    Comida_favorita varchar
);"""


cur.execute(q)

Visualizamos toda la tabla, como no le hemos agregado datos aún está vacía:

In [None]:
q_all = '''
    SELECT 
        *
    FROM 
        Estudiantes
    ;
    '''
df = pd.read_sql(q_all, con)
df

Ahora agregemos algunas filas. Hay dos maneras:

* Especificando los nombres de la columnas y los valores que insertaras (los demás se llenan automáticamente como faltantes).

`INSERT INTO nombre_tabla  (columna1, columna2, columna3, ...) VALUES (valor1, valor2, valor3, ...);`

* O si agregarás todos los valores no es necesario que escribas el nombre de las columnas pero asegúrate de escribirlos en el orden adecuado de las columnas de la tabla.

`INSERT INTO nombre_tabla VALUES (valor1, valor2, valor3, ...);`

In [None]:
# observa que los valores no numéricos los delimitamos por comillas.
q = '''
    INSERT INTO 
        Estudiantes (ID, Apellido, Nombre, Comida_favorita)
    VALUES 
        (1, 'Robles', 'David', 'tacos')
    ;
    '''

cur.execute(q)

Lo visualizamos:

In [None]:
df = pd.read_sql(q_all, con)
df

Guardamos los cambios hechos a la tabla:

In [None]:
con.commit()

Ahora agreguemos un registro/renglon con valores faltantes, los valores que no especifiques se llenarán automáticamente con el valor `None`.

In [None]:
# insertamos un renglón especificando todos los valores excepto el valor para la columna Comida_favorita
q = '''
    INSERT INTO 
        Estudiantes (ID, Apellido, Nombre)
    VALUES 
        (2, 'Villa', 'Pancho')
    ;
    '''

cur.execute(q)

# lo visualizamos:

df = pd.read_sql(q_all, con)
df

Si queremos deshacer los cambios `sqlite` lo permite con el comando `rollback()`. 

Sin embargo, algunas acciones no se pueden deshacer desde `sqlite`, por ejemplo: la creación (`CREATE`) y borrado (`DROP`) de tablas y bases; tampoco se pueden deshacer los cambios si ya ejecutaste el comando `commit()` después de haber hecho la modificación.

In [None]:
# deshacemos los cambios
con.rollback()

# lo visualizamos:
df = pd.read_sql(q_all, con)
df

Por otro lado, el comando `UPDATE` trabaja junto con los comandos `SET` y `WHERE`: con `SET` especificas cómo actualizarás los renglones y con `WHERE` cuáles renglones serán actualizados.

In [None]:
q = '''
    UPDATE 
        Estudiantes
    SET 
        Comida_favorita = 'Pasta'
    WHERE
        ID = 1
    ;
    '''

cur.execute(q)

# lo visualizamos
df = pd.read_sql(q_all, con)
df

Puedes consultar todas las tablas de la base de datos asociada a la conexión (en este caso `flights`), consultando un la tabla `sqlite_master`. Ésta es una tabla maestra de `sqlite` que almacena los nombres de todas las tablas.

In [None]:
q = 'SELECT name FROM sqlite_master WHERE type = "table"'

cur.execute(q)

Extraemos todas las respuestas de la ejecución anterior con `fetchall()` o de una en una con `fetchone()`. 

In [None]:
print(cur.fetchall())

Sólo puedes extraer las respuestas una vez:

In [None]:
print(cur.fetchall())

Finalmente, borremos la tabla. Debes tener especial cuidado con este comando pues en ocasiones es irreversible, debes de asegurarte que en verdad deseas borrarlo o que tienes un respaldo.

In [None]:
# borramos la tabla 'Estudiantes'
q = """DROP TABLE Estudiantes;"""
cur.execute(q)

In [None]:
# visualizamos las tablas existentes una por una
q = 'SELECT name FROM sqlite_master WHERE type = "table"'
cur.execute(q)

output = cur.fetchone()
while output is not None:
    print(output)
    output = cur.fetchone()