# Recap SQL vs MongoDB

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#¿Cómo-vemos-todos-los-elementos-de-una-tabla?" data-toc-modified-id="¿Cómo-vemos-todos-los-elementos-de-una-tabla?-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>¿Cómo vemos todos los elementos de una tabla?</a></span></li><li><span><a href="#Visualizar-solo-algunos-elementos" data-toc-modified-id="Visualizar-solo-algunos-elementos-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Visualizar solo algunos elementos</a></span></li><li><span><a href="#Query-con-una-condición-en-MYSQL" data-toc-modified-id="Query-con-una-condición-en-MYSQL-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Query con una condición en MYSQL</a></span></li><li><span><a href="#Limitamos-query" data-toc-modified-id="Limitamos-query-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Limitamos query</a></span></li><li><span><a href="#Subqueries" data-toc-modified-id="Subqueries-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Subqueries</a></span></li><li><span><a href="#Tablas-Temporales" data-toc-modified-id="Tablas-Temporales-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Tablas Temporales</a></span></li></ul></div>

Para conectarnos a una base de datos de SQL con Python utilizamos SQL Alchemy

In [1]:
import sqlalchemy as alch

Recordamos también que en MYSQL necesitamos un user y una contraseña

In [2]:
from getpass import getpass

In [3]:
# Almacenamos contraseña y ruta de conexión
password = getpass("Dame la contraseña: ")

Dame la contraseña: ········


In [4]:
dbName = "publications"

In [5]:
connectionData=f"mysql+pymysql://root:{password}@localhost/{dbName}"

Lo primero que hay que hacer para trabajar con SQLAlchemy es crear un engine. El engine es el punto de entrada a la base de datos, es decir, el que permite a SQLAlchemy comunicarse con esta.
El motor se usa principalmente para manejar dos elementos: los pools de conexiones y el dialecto a utilizar.

In [7]:
engine = alch.create_engine(connectionData)
print("me conecté")

me conecté


In [8]:
engine

Engine(mysql+pymysql://root:***@localhost/publications)

En mysql tenemos tablas relacionadas entre sí, entonces con que nos conectemos a la base de datos podemos acceder a la información de TODAS las tablas

## ¿Cómo vemos todos los elementos de una tabla?

In [9]:
import pandas as pd

In [10]:
df = pd.read_sql_query(

"""
SELECT * from authors;
""",engine
)

In [11]:
df.head()

Unnamed: 0,au_id,au_lname,au_fname,phone,address,city,state,zip,contract
0,172-32-1176,White,Johnson,408 496-7223,10932 Bigge Rd.,Menlo Park,CA,94025,1
1,213-46-8915,Green,Marjorie,415 986-7020,309 63rd St. #411,Oakland,CA,94618,1
2,238-95-7766,Carson,Cheryl,415 548-7723,589 Darwin Ln.,Berkeley,CA,94705,1
3,267-41-2394,O'Leary,Michael,408 286-2428,22 Cleveland Av. #14,San Jose,CA,95128,1
4,274-80-9391,Straight,Dean,415 834-2919,5420 College Av.,Oakland,CA,94609,1


## Visualizar solo algunos elementos

In [13]:
df = pd.read_sql_query(

"""
SELECT phone, au_lname, au_fname 
FROM authors;
""",engine
)

In [14]:
df.head()

Unnamed: 0,phone,au_lname,au_fname
0,408 496-7223,White,Johnson
1,415 986-7020,Green,Marjorie
2,415 548-7723,Carson,Cheryl
3,408 286-2428,O'Leary,Michael
4,415 834-2919,Straight,Dean


## Query con una condición en MYSQL

In [15]:
df = pd.read_sql_query(

"""
SELECT * FROM sales
WHERE qty > 10;
""",engine
)

In [16]:
df.head()

Unnamed: 0,stor_id,ord_num,ord_date,qty,payterms,title_id
0,7066,A2976,1993-05-24,50,Net 30,PC8888
1,7066,QA7442.3,1994-09-13,75,ON invoice,PS2091
2,7067,P2121,1992-06-15,40,Net 30,TC3218
3,7067,P2121,1992-06-15,20,Net 30,TC4203
4,7067,P2121,1992-06-15,20,Net 30,TC7777


## Limitamos query

In [17]:
# SQL Tiene su propia sintaxis
df = pd.read_sql_query(

"""
SELECT * FROM sales
WHERE qty > 10
LIMIT 3;
""",engine
)
df.head()

Unnamed: 0,stor_id,ord_num,ord_date,qty,payterms,title_id
0,7066,A2976,1993-05-24,50,Net 30,PC8888
1,7066,QA7442.3,1994-09-13,75,ON invoice,PS2091
2,7067,P2121,1992-06-15,40,Net 30,TC3218


## Subqueries

Las subqueries son consultas anidadas dentro de otras consultas. Una subquery devuelve resultados que pueden ser utilizados por la consulta principal en la que está incrustada, transformados posteriormente o unidos con otras tablas o subconsultas. Veamos un ejemplo utilizando nuestro conjunto de datos de publicaciones.

Supongamos que hemos creado una consulta para resumir las ventas de la tienda, incluyendo el número de pedidos, el número de artículos y la cantidad total de unidades vendidas.

In [None]:
# Primero hacemos dos queries a las tablas para explorarlas y plantear cómo hacemos la query que queremos hacer

In [18]:
dfstores = pd.read_sql_query(
"""
SELECT * FROM stores; 

""", engine
)

In [19]:
dfstores.head()

Unnamed: 0,stor_id,stor_name,stor_address,city,state,zip
0,6380,Eric the Read Books,788 Catamaugus Ave.,Seattle,WA,98056
1,7066,Barnum's,567 Pasadena Ave.,Tustin,CA,92789
2,7067,News & Brews,577 First St.,Los Gatos,CA,96745
3,7131,Doc-U-Mat: Quality Laundry and Books,24-A Avogadro Way,Remulade,WA,98014
4,7896,Fricative Bookshop,89 Madison St.,Fremont,CA,90019


In [20]:
dfsales = pd.read_sql_query(
"""
SELECT * FROM sales

""",engine

)

In [21]:
dfsales.head()

Unnamed: 0,stor_id,ord_num,ord_date,qty,payterms,title_id
0,6380,6871,1994-09-14,5,Net 60,BU1032
1,6380,722a,1994-09-13,3,Net 60,PS2091
2,7066,A2976,1993-05-24,50,Net 30,PC8888
3,7066,QA7442.3,1994-09-13,75,ON invoice,PS2091
4,7067,D4482,1994-09-14,10,Net 60,PS2091


Ventas de la tienda incluyendo:     
    - número de pedidos (orders)      
    - número de artículos (count item)           
    - cantidad total de unidades vendidas (sum Qty)   

In [25]:
df = pd.read_sql_query(
"""
SELECT stores.stor_name AS Store, COUNT(DISTINCT(ord_num)) AS Orders, COUNT(title_id) AS Items, SUM(qty) AS Qty
FROM publications.sales
INNER JOIN publications.stores ON stores.stor_id = sales.stor_id
GROUP BY Store;
""", engine
)

In [26]:
df.head()

Unnamed: 0,Store,Orders,Items,Qty
0,Barnum's,2,2,125.0
1,Bookbeat,4,4,80.0
2,Doc-U-Mat: Quality Laundry and Books,3,6,130.0
3,Eric the Read Books,2,2,8.0
4,Fricative Bookshop,3,3,60.0


Si quisiéramos mostrar el número medio de artículos por pedido y la cantidad media por artículo para cada tienda, podríamos hacerlo incrustando esta consulta como una subconsulta en otra consulta que realice esos cálculos.

In [28]:
df = pd.read_sql_query(
"""
SELECT Store, Items/Orders AS avgItems, Qty/Items AS avgQty
FROM (
SELECT stores.stor_name AS Store, COUNT(DISTINCT(ord_num)) AS Orders, COUNT(title_id) AS Items, SUM(qty) AS Qty
FROM publications.sales
INNER JOIN publications.stores ON stores.stor_id = sales.stor_id
GROUP BY Store
) summary;

""",engine
)

In [29]:
df.head()

Unnamed: 0,Store,avgItems,avgQty
0,Barnum's,1.0,62.5
1,Bookbeat,1.0,20.0
2,Doc-U-Mat: Quality Laundry and Books,2.0,21.6667
3,Eric the Read Books,1.0,4.0
4,Fricative Bookshop,1.0,20.0


La query principal utiliza los resultados de la subquery y nos permite realizar los cálculos utilizando los nombres de los campos que asignamos en la subquery. Para acceder a los resultados de la subquery, también necesitamos encerrarla entre paréntesis y darle un nombre.

Una query principal puede contener múltiples subqueries, a veces con otras subconsultas anidadas dentro de ellas también. Desde la perspectiva de la consulta principal, los resultados devueltos por una subconsulta tienen el mismo propósito que una tabla. Son una fuente de datos para la consulta principal. De hecho, incluso se pueden unir tablas y resultados de subconsultas dentro de la consulta principal.

## Tablas Temporales 

Las tablas temporales son tablas provisionales que se construyen a partir de los resultados de las consultas y se eliminan una vez que la sesión de la base de datos ha finalizado. Sirven para almacenar los resultados de la consulta para su uso posterior en la sesión. La forma de evitar tener que escribir la misma subconsulta varias veces es guardando los resultados de la consulta en una tabla temporal y luego consultando la tabla temporal cada vez que necesitemos acceder a esos resultados.

Veamos cómo podríamos haber cambiado la subconsulta de la sección anterior por una tabla temporal. Para ello, podemos utilizar el comando CREATE TEMPORARY TABLE, seguido del nombre que queramos dar a la nueva tabla y de la consulta.

In [None]:
SELECT stores.stor_name AS Store, COUNT(DISTINCT(ord_num)) AS Orders, COUNT(title_id) AS Items, SUM(qty) AS Qty
FROM publications.sales
INNER JOIN publications.stores ON stores.stor_id = sales.stor_id
GROUP BY Store;

In [30]:
engine.execute("""
CREATE TEMPORARY TABLE publications.store_sales_summary
SELECT stores.stor_name AS Store, COUNT(DISTINCT(ord_num)) AS Orders, COUNT(title_id) AS Items, SUM(qty) AS Qty
FROM publications.sales
INNER JOIN publications.stores ON stores.stor_id = sales.stor_id
GROUP BY Store;
""")

<sqlalchemy.engine.cursor.LegacyCursorResult at 0x7ff775333850>

In [31]:
df = pd.read_sql_query("""
SELECT * FROM store_sales_summary;
""",engine)
df.head()

Unnamed: 0,Store,Orders,Items,Qty
0,Barnum's,2,2,125.0
1,Bookbeat,4,4,80.0
2,Doc-U-Mat: Quality Laundry and Books,3,6,130.0
3,Eric the Read Books,2,2,8.0
4,Fricative Bookshop,3,3,60.0


In [33]:
df = pd.read_sql_query(
"""
SELECT Store, Items/Orders AS avgItems, Qty/Items AS avgQty
FROM store_sales_summary
""",engine
)
df.head()

Unnamed: 0,Store,avgItems,avgQty
0,Barnum's,1.0,62.5
1,Bookbeat,1.0,20.0
2,Doc-U-Mat: Quality Laundry and Books,2.0,21.6667
3,Eric the Read Books,1.0,4.0
4,Fricative Bookshop,1.0,20.0
