<a href="https://colab.research.google.com/github/pikey-msc/Python/blob/main/M3/C1_M3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Índice
#### 1. Bases de datos y SQL 
##### 1.1.Introducción a las bases de datos con MySQL 
##### 1.2.Relación entre tablas: llaves primarias y foráneas  
##### 1.3.Creación de una base de datos  
##### 1.4.Consultas en una base de datos  
##### 1.5.Python – SQL  
###### 1.5.1. SQLAlchemy  


## Bases de Datos Relacionales

En esta sección veremos como trabajar con bases de datos relacionales dentro de Python.

Algunas de las ventajas de trabajar con bases de datos en Python son las siguientes:

1. La portabilidad de Python. i.e. funciona en diferentes sistemas: IOS, Windows, Unix, etc.
2. la posibilidad de acceder a _queries_ de las bases de datos por medio de _CONECTORES_
3. Python nos permite conectarnos a las bases de datos más comúnmente usadas:
    * MySQL,
    * PostgreSQL,
    * Oracle,
    * MS-SQL,
    * etc.

## Definiciones básicas
**Tabla** 

Es un conjunto de información que tiene relación entre sí.

Por ejemplo, en una tabla de provincias, el número de habitantes que vive en cada provincia es un tipo de información relacionada con el nombre de la provincia, o el identificador asignado.

**Base de datos**

Es el conjunto de tablas que describen una entidad de rango mayor. Las tablas pueden tener relaciones entre ellas y ser complementarias.

Lo normal es que para describir o trabajar con un sistema, sea necesario disponer de más de una tabla para comprender el todo, existiendo relaciones entre ellas.

Por ejemplo, para conocer los pueblos de España, necesitaremos una tabla de provincias, y otra de municipios, que están relacionadas entre sí porque cada municipio está vinculado a una y solo una provincia.

**Registros**

Son la unidad básica que describe a un objeto o a una transacción. Las tablas están formadas por un conjunto de ellos, siempre siguiendo el mismo patrón en cada una de ellas.


**Campos o columnas**

El registro está formado por uno o más campos, que son la unidad básica de información, y son una propiedad específica de un objeto o transacción.

Un registro, en el caso de la tabla provincias, estará formado por el identificador de provincia, el nombre de la provincia, y el censo de dicha provincia.

**Tipo de dato**

Dependiendo de la columna, cada una de ellas tendrá definido un tipo de dato específico que indicará la forma de almacenar, las características y los límites.

Así, hay distintos tipos: los hay numérico, alfanumérico o de tipo cadena, de tipo fecha, ….

Cada motor de base de datos define distintos tipos de datos, y algunos son específicos de cada una de ellas.

**Diseño de una base de datos**

Para diseñar una base de datos es necesario seguir una serie de normas:

* Cada tabla deberá tener un nombre único y específico.
* Las tablas deberán tener al menos un campo
* Cada tabla puede tener cero o más filas y pueden estar desordenadas
* Para cada valor de una columna, tendrá el mismo tipo de dato
* Toda tabla contendrá un campo o conjunto de campos que será único (cuyo valor no se repite entre los registros) y con el que es posible acceder a la información. Dicho valor único se identifica inequívocamente con el registro, y se le conoce como llave o clave primaria.
* Sólo existirá una clave primaria por registro.
* Las llaves o claves secundarias es un campo o conjunto de campos que a su vez, son clave primaria en otra tabla. Una tabla puede tener más de una clave secundaria.
* La relación entre claves primarias y claves foráneas crea relaciones padre-hijo entre las tablas de la base de datos.


Las claves primarias y foráneas son las estructuras principales que conectan a las tablas de las bases de datos.

## Llave primaria
Una llave primaria es un campo único , que no se puede repetir y sirve para identificar los registros de una tabla como distintos, además sirve para hacer relaciones ( uno a uno, uno a muchos, muchos a muchos entre tablas), sin las llaves primaria las bases de dato relacionales no tendrían sentido y siempre existiría información repetida.

Para que una tabla califique como tabla relacional debe tener una llave primaria, Una tabla sólo puede haber una llave primaria por tabla.

La llave primaria para cada tabla es almacenada en un índice. El índice se utiliza para asegurarse que cada registro (fila) es único.

La selección de una clave primaria es muy importante en el diseño de una base de datos, ya que es un elemento clave de los datos que facilita la unión de tablas y el concepto total de una base de datos relacional.



## Llave foránea

Es uno o mas campos de un tabla que hacen referencia al campo o campos de llave principal de otra tabla, una llave foránea indica como esta relacionadas las tablas. Los datos en los campos de ambas deben coincidir, aunque los nombres de los campos no sean los mismos.

Una clave foránea es simplemente un campo en una tabla que se corresponde con la clave primaria de otra tabla.

Las claves foráneas tienen que ver precisamente con la integridad referencial, lo que significa que si una clave foránea contiene un valor, ese valor se refiere a un registro existente en la tabla relacionada.

Una tabla puede tener relaciones con varias tablas a través de distintas claves foráneas, e incluso referenciarse a si misma (clave foránea recursiva).

**Diferencias entre llave foránea y primaria**

La clave primaria identifica un registro único de una tabla.
La clave foránea relaciona los datos de un registro de una tabla con los de otra, o con un registro distinto de la misma tabla.

## MySQL

Durante esta sección del curso trabajaremos con MySQL. MySQL es uno de los manejadores de bases de datos relacionales más popular entre la comunidad _open source_.

MySQL, así como otros manejadores de bases de datos, requieren de sistemas que permitan manipular la información. 

## PyMySQL

PyMySQL es un cliente de MySQL escrito en Python basado en [PEP 249](https://www.python.org/dev/peps/pep-0249/): Especificaciones de API para bases de datos en Python v2.0.

Un cliente de bases de datos, `PyMySQL` en este caso, se conecta a la base de datos y hace los queries o manipulaciones a la base de datos seleccionada.

Durante el resto de esta sección, ocuparemos la base de datos `nabla_python1` ubicada dentro de [db4free.net](https://db4free.net/signup.php). `nabla_python1` contiene las siguientes tablas:

```bash
mysql> use nabla_python 
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A

Database changed
mysql> show tables;
+------------------------+
| Tables_in_nabla_python |
+------------------------+
| customers              |
| employees              |
| offices                |
| orderdetails           |
| orders                 |
| payments               |
| productlines           |
| products               |
+------------------------+
8 rows in set (0.17 sec)
```

In [None]:
!pip install pymysql

Collecting pymysql
  Downloading PyMySQL-1.0.2-py3-none-any.whl (43 kB)
[?25l[K     |███████▌                        | 10 kB 18.4 MB/s eta 0:00:01[K     |███████████████                 | 20 kB 9.6 MB/s eta 0:00:01[K     |██████████████████████▍         | 30 kB 8.0 MB/s eta 0:00:01[K     |██████████████████████████████  | 40 kB 7.4 MB/s eta 0:00:01[K     |████████████████████████████████| 43 kB 831 kB/s 
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.0.2


In [None]:
import pymysql
import pandas as pd
passw = 'Capitan1'
conn = pymysql.connect(host="db4free.net",
                    user="carlos_carrasco1",
                    port=3306,
                    password=passw,
                    database="nabla_python1",
                    charset="utf8")

PyMySQL es una interfaz para conectarse a una BBDD MySQL desde Python

1. Conectarse a una BBDD MySQL  necesitamos una conexión (un objeto MySQLConnection)
2. Instanciar un objeto cursor de MySQL (MySQLCursor) de la conexión.
   - Cursor: objeto que puede ejecutar operaciones en lenguaje SQL. Es un objeto que utilizas para interactuar con la      BBDD
4. Utilizar los métodos fetchone(), fetchmany() o fetchall() para traernos los datos.
5. Utilizar el método close() para cerrar el cursor y la conexión a la BBDD.


In [None]:
#puerto: interfaz de comunicación, el 3306 es predeterminado para MySQL.
#kernel: aparato/programa que ejecuta el código

Dada una conexión, la manera de interactuar con una base de datos desde `pymysql` es mediante la creación de un cursor, el cuál se puede usar junto con una conexión.

In [None]:
with conn.cursor() as cursor:
    cursor.execute("SELECT VERSION()")
    version = cursor.fetchone()
print(f"Current MySQL version {version}")

Current MySQL version ('8.0.28',)


In [None]:
# f-string: mecanismo para formatear strings que se conoce como "String interpolation" > evaluar expresiones de strings
# que tienen parámetros embebidos.

### Conectarse a una BBDD MYSQL desde Python
1.- Una vez creado cursor, ejecutamos comandos de MySQL por medio del mètodo execute
2.-Un cursor recaba la información dentro de la base de dtos y arroja la información a la sesión de Python por medio
de los MÉTODOS `fetchone` , `fetchmany` o `fetchall`.

In [None]:
conn = pymysql.connect(host="db4free.net",
                    user="carlos_carrasco1",
                    port=3306,
                    password=passw,
                    database="nabla_python1",
                    charset="utf8")

In [None]:
with conn.cursor() as cursor:
    cursor.execute("show databases;")
    dbs = cursor.fetchall()
dbs

(('information_schema',), ('nabla_python1',))

In [None]:
with conn.cursor() as cursor:
    cursor.execute("SHOW TABLES;")
    tables = cursor.fetchall()
tables

(('cust_amount',),
 ('custo_amount',),
 ('customers',),
 ('employees',),
 ('offices',),
 ('orderdetails',),
 ('orders',),
 ('pagos2',),
 ('payments',),
 ('productlines',),
 ('products',),
 ('users',))

### Ejecutar consultas de MYSQL desde Python
Para ejecutar código SQL desde python, usamos la siguiente estructura general:

query = "Aqui va el Query"

with conn.cursor() as cursor: 
    cursor.execute(query)
    customers=cursor.fetchmany(10)

conn.close()

### Consultar metadatos de las tablas

In [None]:
nombres="""SELECT TABLE_NAME, COLUMN_NAME 
FROM INFORMATION_SCHEMA.COLUMNS 
WHERE 
    TABLE_SCHEMA = 'nabla_python1'
-- AND TABLE_NAME = 'customers'
;""" ;

with conn.cursor() as cursor:
    cursor.execute(nombres)
    metadatos = cursor.fetchall() 

In [None]:
metadatos


(('cust_amount', 'customerNumber'),
 ('cust_amount', 'num_pedidos'),
 ('cust_amount', 'amounts'),
 ('custo_amount', 'customerNumber'),
 ('custo_amount', 'num_pedidos'),
 ('custo_amount', 'amounts'),
 ('customers', 'customerNumber'),
 ('customers', 'customerName'),
 ('customers', 'contactLastName'),
 ('customers', 'contactFirstName'),
 ('customers', 'phone'),
 ('customers', 'addressLine1'),
 ('customers', 'addressLine2'),
 ('customers', 'city'),
 ('customers', 'state'),
 ('customers', 'postalCode'),
 ('customers', 'country'),
 ('customers', 'salesRepEmployeeNumber'),
 ('customers', 'creditLimit'),
 ('employees', 'employeeNumber'),
 ('employees', 'lastName'),
 ('employees', 'firstName'),
 ('employees', 'extension'),
 ('employees', 'email'),
 ('employees', 'officeCode'),
 ('employees', 'reportsTo'),
 ('employees', 'jobTitle'),
 ('offices', 'officeCode'),
 ('offices', 'city'),
 ('offices', 'phone'),
 ('offices', 'addressLine1'),
 ('offices', 'addressLine2'),
 ('offices', 'state'),
 ('offic

#### Consulta de tablas de una base de datos en MYSQL

In [None]:
#Ejemplo: selecciona todos los clientes
query="""
SELECT * FROM customers
LIMIT 20; 
"""

with conn.cursor() as cursor:
    cursor.execute(query)
    customers = cursor.fetchall() #trae los primeros 10 registros.
    
# conn.close()

In [None]:
customers

((103,
  'Atelier graphique',
  'Schmitt',
  'Carine ',
  '40.32.2555',
  '54, rue Royale',
  None,
  'Nantes',
  None,
  '44000',
  'France',
  1370,
  Decimal('21000.00')),
 (112,
  'Signal Gift Stores',
  'King',
  'Jean',
  '7025551838',
  '8489 Strong St.',
  None,
  'Las Vegas',
  'NV',
  '83030',
  'USA',
  1166,
  Decimal('71800.00')),
 (114,
  'Australian Collectors, Co.',
  'Ferguson',
  'Peter',
  '03 9520 4555',
  '636 St Kilda Road',
  'Level 3',
  'Melbourne',
  'Victoria',
  '3004',
  'Australia',
  1611,
  Decimal('117300.00')),
 (119,
  'La Rochelle Gifts',
  'Labrune',
  'Janine ',
  '40.67.8555',
  '67, rue des Cinquante Otages',
  None,
  'Nantes',
  None,
  '44000',
  'France',
  1370,
  Decimal('118200.00')),
 (121,
  'Baane Mini Imports',
  'Bergulfsen',
  'Jonas ',
  '07-98 9555',
  'Erling Skakkes gate 78',
  None,
  'Stavern',
  None,
  '4110',
  'Norway',
  1504,
  Decimal('81700.00')),
 (124,
  'Mini Gifts Distributors Ltd.',
  'Nelson',
  'Susan',
  '415555

In [None]:
type(customers)

tuple

In [None]:
custcols = ['customerNumber','customerName','contactLastName','contactFirstName',
            'phone', 'addressLine1','addressLine2','city','state','postalCode','country','salesRepEmployeeNumber',
            'creditLimit']

### Pasar a Pandas una consulta

In [None]:
df_cus = pd.DataFrame(customers, columns = custcols)
df_cus.shape #shape es un atributo --> no necesita parèntesis
df_cus

Unnamed: 0,customerNumber,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
0,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
1,112,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0
2,114,"Australian Collectors, Co.",Ferguson,Peter,03 9520 4555,636 St Kilda Road,Level 3,Melbourne,Victoria,3004,Australia,1611.0,117300.0
3,119,La Rochelle Gifts,Labrune,Janine,40.67.8555,"67, rue des Cinquante Otages",,Nantes,,44000,France,1370.0,118200.0
4,121,Baane Mini Imports,Bergulfsen,Jonas,07-98 9555,Erling Skakkes gate 78,,Stavern,,4110,Norway,1504.0,81700.0
5,124,Mini Gifts Distributors Ltd.,Nelson,Susan,4155551450,5677 Strong St.,,San Rafael,CA,97562,USA,1165.0,210500.0
6,125,Havel & Zbyszek Co,Piestrzeniewicz,Zbyszek,(26) 642-7555,ul. Filtrowa 68,,Warszawa,,01-012,Poland,,0.0
7,128,"Blauer See Auto, Co.",Keitel,Roland,+49 69 66 90 2555,Lyonerstr. 34,,Frankfurt,,60528,Germany,1504.0,59700.0
8,129,Mini Wheels Co.,Murphy,Julie,6505555787,5557 North Pendale Street,,San Francisco,CA,94217,USA,1165.0,64600.0
9,131,Land of Toys Inc.,Lee,Kwai,2125557818,897 Long Airport Avenue,,NYC,NY,10022,USA,1323.0,114900.0


In [None]:
q="""
SELECT * FROM payments;
"""
with conn.cursor() as cursor:
    cursor.execute(q)
    payments = cursor.fetchmany(10)

In [None]:
payments

((103, 'HQ336336', datetime.date(2004, 10, 19), Decimal('6066.78')),
 (103, 'JM555205', datetime.date(2003, 6, 5), Decimal('14571.44')),
 (103, 'OM314933', datetime.date(2004, 12, 18), Decimal('1676.14')),
 (112, 'BO864823', datetime.date(2004, 12, 17), Decimal('14191.12')),
 (112, 'HQ55022', datetime.date(2003, 6, 6), Decimal('32641.98')),
 (112, 'ND748579', datetime.date(2004, 8, 20), Decimal('33347.88')),
 (114, 'GG31455', datetime.date(2003, 5, 20), Decimal('45864.03')),
 (114, 'MA765515', datetime.date(2004, 12, 15), Decimal('82261.22')),
 (114, 'NP603840', datetime.date(2003, 5, 31), Decimal('7565.08')),
 (114, 'NR27552', datetime.date(2004, 3, 10), Decimal('44894.74')))

In [None]:
paymcols = ['customerNumber', 'checkNumber', 'paymentDate', 'amount']

In [None]:
df_pay = pd.DataFrame(columns= paymcols, data = payments )
df_pay.head(3)

Unnamed: 0,customerNumber,checkNumber,paymentDate,amount
0,103,HQ336336,2004-10-19,6066.78
1,103,JM555205,2003-06-05,14571.44
2,103,OM314933,2004-12-18,1676.14


### Seleccionar columnas específicas
Al consultar una base de datos, en pocas ocasiones es necesario adquirir todas las columnas. Por lo que podemos explícitamente seleccioanr que columnas ocuparemos de la siguiente manera: 

```SQL
SELECT C0, C1, ..., CN FROM tables
```

In [None]:
#Ejemplo:
query=" SELECT orderDate, shippedDate, customerNumber FROM orders;"

with conn.cursor() as cursor:
    cursor.execute(query)
    orders = cursor.fetchmany(10)
orders

((datetime.date(2003, 1, 6), datetime.date(2003, 1, 10), 363),
 (datetime.date(2003, 1, 9), datetime.date(2003, 1, 11), 128),
 (datetime.date(2003, 1, 10), datetime.date(2003, 1, 14), 181),
 (datetime.date(2003, 1, 29), datetime.date(2003, 2, 2), 121),
 (datetime.date(2003, 1, 31), datetime.date(2003, 2, 1), 141),
 (datetime.date(2003, 2, 11), datetime.date(2003, 2, 12), 145),
 (datetime.date(2003, 2, 17), datetime.date(2003, 2, 21), 278),
 (datetime.date(2003, 2, 24), datetime.date(2003, 2, 26), 131),
 (datetime.date(2003, 3, 3), datetime.date(2003, 3, 8), 385),
 (datetime.date(2003, 3, 10), datetime.date(2003, 3, 11), 486))

### Filtros y agregaciones en SQL

#### WHERE
En casos sobre los cuáles nos interesen ciertas filas en específico, recurrimos al comando `WHERE`

```SQL
SELECT C0, C1 FROM table_name WHERE cond
```

En este caso, `cond` es una condición booleana la cual regresa únicamente los elemenos que terminen siendo evaluados como verdaderos.

In [None]:
# seleccionar òrdenes que fueron enviadas en un lapso menor a 30 días de realizadas.
q="""
SELECT orderDate, shippedDate, customerNumber
FROM orders
WHERE shippedDate -orderDate < 30;
"""
with conn.cursor() as cursor:
    cursor.execute(q)
    res = cursor.fetchmany(10)
df = pd.DataFrame(res)
df


Unnamed: 0,0,1,2
0,2003-01-06,2003-01-10,363
1,2003-01-09,2003-01-11,128
2,2003-01-10,2003-01-14,181
3,2003-02-11,2003-02-12,145
4,2003-02-17,2003-02-21,278
5,2003-02-24,2003-02-26,131
6,2003-03-03,2003-03-08,385
7,2003-03-10,2003-03-11,486
8,2003-03-18,2003-03-20,187
9,2003-03-25,2003-03-30,129


#### GROUP BY
Podemos realizar consultas sobre un grupo de elementos y aplicar alguna función sobre cada uno de los grupos encontrados por medio del comando `GROUP BY`.

```SQL
SELECT F(C1) FROM table_name GROUP BY C1
```

Cualquier función que podomas ocupar una vez agregados elementos tiene por nombre _aggregate function_. Algunas de las funciones agregadas que podemos usar en MySQL incluyen: 

* `AVG`
* `COUNT`
* `SUM`
* `MAX`
* `MIN`
* `STD`

In [None]:
df_cus.head(8)

Unnamed: 0,customerNumber,customerName,contactLastName,contactFirstName,phone,addressLine1,addressLine2,city,state,postalCode,country,salesRepEmployeeNumber,creditLimit
0,103,Atelier graphique,Schmitt,Carine,40.32.2555,"54, rue Royale",,Nantes,,44000,France,1370.0,21000.0
1,112,Signal Gift Stores,King,Jean,7025551838,8489 Strong St.,,Las Vegas,NV,83030,USA,1166.0,71800.0
2,114,"Australian Collectors, Co.",Ferguson,Peter,03 9520 4555,636 St Kilda Road,Level 3,Melbourne,Victoria,3004,Australia,1611.0,117300.0
3,119,La Rochelle Gifts,Labrune,Janine,40.67.8555,"67, rue des Cinquante Otages",,Nantes,,44000,France,1370.0,118200.0
4,121,Baane Mini Imports,Bergulfsen,Jonas,07-98 9555,Erling Skakkes gate 78,,Stavern,,4110,Norway,1504.0,81700.0
5,124,Mini Gifts Distributors Ltd.,Nelson,Susan,4155551450,5677 Strong St.,,San Rafael,CA,97562,USA,1165.0,210500.0
6,125,Havel & Zbyszek Co,Piestrzeniewicz,Zbyszek,(26) 642-7555,ul. Filtrowa 68,,Warszawa,,01-012,Poland,,0.0
7,128,"Blauer See Auto, Co.",Keitel,Roland,+49 69 66 90 2555,Lyonerstr. 34,,Frankfurt,,60528,Germany,1504.0,59700.0


In [None]:
# contar clientes por país, seleccionando sólo a Francia, USA, Aus, alemania y Noruega:

query="""
SELECT country, COUNT(customerNumber) AS num_of_customers
FROM customers
WHERE country IN ('France', 'USA', 'Australia', 'Germany', 'Norway')
GROUP BY country;
"""

with conn.cursor() as cursor:
    cursor.execute(query)
    res = cursor.fetchmany(15)
df = pd.DataFrame(res)
df


Unnamed: 0,0,1
0,France,12
1,USA,36
2,Australia,5
3,Norway,3
4,Germany,13


In [None]:
query="""
SELECT country, COUNT(customerNumber) AS num_of_customers
FROM customers
WHERE country IN ('France', 'USA', 'Australia', 'Germany', 'Norway')
GROUP BY country;
"""

with conn.cursor() as cursor:
    cursor.execute(query)
    res = cursor.fetchall()

for element in res:
    print(element)

('France', 12)
('USA', 36)
('Australia', 5)
('Norway', 3)
('Germany', 13)


#### HAVING

In [None]:
query="""
SELECT country, COUNT(customerNumber) AS num_of_customers
FROM customers
WHERE country IN ('France', 'USA', 'Australia', 'Germany', 'Norway')
GROUP BY country
HAVING num_of_customers > 12; -- HAVING actua sobre el resultado del GROUP BY
"""

with conn.cursor() as cursor:
    cursor.execute(query)
    res = cursor.fetchall()

for element in res:
    print(element)

('USA', 36)
('Germany', 13)


In [None]:
# IGUAL QUE anterior, SIN ALIAS DEL COUNT()
query="""
SELECT country, COUNT(customerNumber)
FROM customers
WHERE country IN ('France', 'USA', 'Australia', 'Germany', 'Norway')
GROUP BY country
HAVING COUNT(customerNumber)  > 12; -- HAVING actua sobre el resultado del GROUP BY
"""

with conn.cursor() as cursor:
    cursor.execute(query)
    res = cursor.fetchall()

for element in res:
    print(element)

('USA', 36)
('Germany', 13)


In [None]:
# NO ES NECESARIO LA PALABRA "AS" para definir el alias
query="""
SELECT country, COUNT(customerNumber) num_of_customers
FROM customers
WHERE country IN ('France', 'USA', 'Australia', 'Germany', 'Norway')
GROUP BY country
HAVING num_of_customers > 10 -- HAVING actua sobre el resultado del GROUP BY
ORDER BY num_of_customers DESC;  -- si omitimos 'DESC', ordena por default de forma ascendente.
"""

with conn.cursor() as cursor:
    cursor.execute(query)
    res = cursor.fetchall()

for element in res:
    print(element)

('USA', 36)
('Germany', 13)
('France', 12)


In [None]:
# en GROUP BY y ORDER, podemos referenciar las variables por el orden en el que aparecen en la sentencia SELECT:
query="""
SELECT country, COUNT(customerNumber) num_of_customers
FROM customers
WHERE country IN ('France', 'USA', 'Australia', 'Germany', 'Norway')
GROUP BY 1
HAVING num_of_customers > 10 -- HAVING actua sobre el resultado del GROUP BY
ORDER BY 2 DESC;  -- si omitimos 'DESC', ordena por default de forma ascendente.
"""

with conn.cursor() as cursor:
    cursor.execute(query)
    res = cursor.fetchall()

for element in res:
    print(element)

('USA', 36)
('Germany', 13)
('France', 12)


#### LIMIT

In [None]:
# finalmente, usar LIMIT para quedarnos con un determinado nùmero de registros.
query="""
SELECT country, COUNT(customerNumber) num_of_customers
FROM customers
WHERE country IN ('France', 'USA', 'Australia', 'Germany', 'Norway')
GROUP BY 1
HAVING num_of_customers > 10 -- HAVING actua sobre el resultado del GROUP BY
ORDER BY 2 DESC  -- si omitimos 'DESC', ordena por default de forma ascendente.
LIMIT 2;
"""

with conn.cursor() as cursor:
    cursor.execute(query)
    res = cursor.fetchall()

for element in res:
    print(element)

('USA', 36)
('Germany', 13)


## PandasSQL 

Ahora veamos una forma de hacer queries sobre un DF usando SQL en Python

In [None]:
pip install pandasql

Note: you may need to restart the kernel to use updated packages.


In [44]:
!git clone https://github.com/pikey-msc/Python.git

Cloning into 'Python'...
remote: Enumerating objects: 7, done.[K
remote: Counting objects: 100% (7/7), done.[K
remote: Compressing objects: 100% (5/5), done.[K
remote: Total 7 (delta 0), reused 0 (delta 0), pack-reused 0[K
Unpacking objects: 100% (7/7), done.


In [None]:
from pandasql import sqldf

In [46]:
departments = pd.read_csv('Python/M3/S1/departments.csv') 
employees = pd.read_csv('Python/M3/S1/employees.csv')
regions = pd.read_csv('Python/M3/S1/regions.csv')

In [None]:
departments

Unnamed: 0,department,division
0,Clothing,Home
1,Grocery,Home
2,Decor,Home
3,Furniture,Home
4,Computers,Electronics
5,Device Repair,Electronics
6,Phones & Tablets,Electronics
7,Garden,Outdoors
8,Camping & Fishing,Outdoors
9,Sports,Outdoors


In [None]:
employees.head()

Unnamed: 0,employee_id,first_name,last_name,email,hire_date,department,gender,salary,region_id
0,1,Berrie,Manueau,bmanueau0@dion.ne.jp,2006-04-20,Sports,F,154864,4
1,2,Aeriell,McNee,amcnee1@google.es,2009-01-26,Tools,F,56752,3
2,3,Sydney,Symonds,ssymonds2@hhs.gov,2010-05-17,Clothing,F,95313,4
3,4,Avrom,Rowantree,,2014-08-02,Phones & Tablets,M,119674,7
4,5,Feliks,Morffew,fmorffew4@a8.net,2003-01-14,Computers,M,55307,5


In [None]:
regions.head()

Unnamed: 0,region_id,region,country
0,1,Southwest,United States
1,2,Northeast,United States
2,3,Northwest,United States
3,4,Central,Asia
4,5,East Asia,Asia


In [None]:
q="""
SELECT * FROM regions;
"""

print(sqldf(q,globals()))

   region_id       region        country
0          1    Southwest  United States
1          2    Northeast  United States
2          3    Northwest  United States
3          4      Central           Asia
4          5    East Asia           Asia
5          6       Quebec         Canada
6          7  Nova Scotia         Canada


In [None]:
def fsql(q):
    return sqldf(q, globals())

In [None]:
q="""
SELECT * FROM regions;
"""
fsql(q)

Unnamed: 0,region_id,region,country
0,1,Southwest,United States
1,2,Northeast,United States
2,3,Northwest,United States
3,4,Central,Asia
4,5,East Asia,Asia
5,6,Quebec,Canada
6,7,Nova Scotia,Canada


In [None]:
employees.head()

Unnamed: 0,employee_id,first_name,last_name,email,hire_date,department,gender,salary,region_id
0,1,Berrie,Manueau,bmanueau0@dion.ne.jp,2006-04-20,Sports,F,154864,4
1,2,Aeriell,McNee,amcnee1@google.es,2009-01-26,Tools,F,56752,3
2,3,Sydney,Symonds,ssymonds2@hhs.gov,2010-05-17,Clothing,F,95313,4
3,4,Avrom,Rowantree,,2014-08-02,Phones & Tablets,M,119674,7
4,5,Feliks,Morffew,fmorffew4@a8.net,2003-01-14,Computers,M,55307,5


In [None]:
# Quiero el promedio del salario de todos los empleados.
q="""
SELECT ROUND(AVG(salary))
FROM employees;
"""
fsql(q)

Unnamed: 0,ROUND(AVG(salary))
0,91572.0


## Subconsulta i.e.: Subqueries

In [None]:
#Podemos usar una consulta como una fuente de informaciòn:

# Sup quiero el promedio del salario de los empleados PERO quiero excluir a los empleados con el màximo y el mínimo
# salario.

q="""
SELECT ROUND(AVG(salary))
FROM employees
WHERE salary NOT IN (                             -- una lista con el max y el min
        (SELECT MAX(salary) FROM employees),      --aquí el máximo
        (SELECT MIN(salary) FROM employees)       -- aquí el mínimo
);
"""
fsql(q)
    

Unnamed: 0,ROUND(AVG(salary))
0,91567.0


In [None]:
# supongamos quiero empleados asignados a un departamento que NO está en la tabla de departamentos:

q="""
SELECT * FROM employees
WHERE department NOT IN (SELECT department FROM departments)
LIMIT 5;
"""
fsql(q)

Unnamed: 0,employee_id,first_name,last_name,email,hire_date,department,gender,salary,region_id
0,82,Dani,Diter,dditer29@huffingtonpost.com,2006-01-13,Camping,M,102516,2
1,86,Doll,Blondel,dblondel2d@list-manage.com,2007-03-30,Camping,F,136773,7
2,91,Riley,Yellowlea,ryellowlea2i@ibm.com,2007-03-20,Camping,M,166569,5
3,130,Vincents,Gullivent,vgullivent3l@wikia.com,2010-07-24,Camping,M,57696,6
4,140,Eugenia,Scourgie,escourgie3v@imdb.com,2011-06-29,Camping,F,26747,5


In [None]:
#PARA COMPROBAR LO ANTERIOR:
q="""
SELECT * FROM departments
ORDER BY department
LIMIT 10;
"""
fsql(q)

Unnamed: 0,department,division
0,Automotive,Hardware
1,Beauty,Fashion
2,Books,Entertainment
3,Camping & Fishing,Outdoors
4,Children Clothing,Kids
5,Clothing,Home
6,Computers,Electronics
7,Cosmetics,Fashion
8,Decor,Home
9,Device Repair,Electronics


In [None]:
# quiero todos los empleados que trabajan en la división de 'Electronics'.
q="""
SELECT * FROM employees
WHERE department IN (SELECT department FROM departments
                    WHERE division = 'Electronics')
"""
fsql(q)

Unnamed: 0,employee_id,first_name,last_name,email,hire_date,department,gender,salary,region_id
0,4,Avrom,Rowantree,,2014-08-02,Phones & Tablets,M,119674,7
1,5,Feliks,Morffew,fmorffew4@a8.net,2003-01-14,Computers,M,55307,5
2,8,Seline,Dubber,sdubber7@t-online.de,2012-05-28,Phones & Tablets,F,101066,3
3,19,Bernardine,Hendricks,bhendricksi@privacy.gov.au,2006-02-04,Device Repair,F,158268,3
4,20,Jessey,Colum,jcolumj@pen.io,2013-07-08,Computers,M,77173,7
...,...,...,...,...,...,...,...,...,...
128,986,Sheila,Matthiae,smatthiaerd@fotki.com,2010-03-26,Computers,F,23878,1
129,989,Ari,Queripel,aqueripelrg@npr.org,2013-08-30,Phones & Tablets,M,80695,1
130,992,Katharine,Brussels,kbrusselsrj@cnet.com,2003-10-02,Phones & Tablets,F,29806,5
131,994,Aurlie,Kindleysides,,2004-05-20,Device Repair,F,104822,3


In [None]:
#quiero a los empleados que trabajan en USA o Canada Y que ganan más de 120k USD
regions

Unnamed: 0,region_id,region,country
0,1,Southwest,United States
1,2,Northeast,United States
2,3,Northwest,United States
3,4,Central,Asia
4,5,East Asia,Asia
5,6,Quebec,Canada
6,7,Nova Scotia,Canada


In [None]:
q="""
SELECT * FROM employees
WHERE salary > 120000
AND region_id IN (SELECT region_id FROM regions
                WHERE country IN ('United States','Canada'))
"""

fsql(q)

Unnamed: 0,employee_id,first_name,last_name,email,hire_date,department,gender,salary,region_id
0,6,Bethena,Trow,btrow5@technorati.com,2003-06-08,Sports,F,134501,3
1,11,Nickey,Pointon,npointona@vistaprint.com,2006-12-30,Jewelry,M,126333,7
2,14,Jodi,Hook,jhookd@booking.com,2003-10-16,Tools,F,126588,2
3,19,Bernardine,Hendricks,bhendricksi@privacy.gov.au,2006-02-04,Device Repair,F,158268,3
4,21,Bernardo,Davage,,2013-07-11,Clothing,M,124949,6
...,...,...,...,...,...,...,...,...,...
213,972,Cirstoforo,Mulloch,cmullochqz@flickr.com,2011-05-09,Clothing,M,141256,7
214,974,Thorpe,Bick,tbickr1@businessinsider.com,2008-01-19,Garden,M,121211,1
215,987,Granny,Barhem,,2003-05-13,Movies,M,125798,1
216,997,Rhianna,Trynor,rtrynorro@uiuc.edu,2005-04-07,Beauty,F,120753,7


In [None]:
#siguiente: comenzar por Sentencia CASE y comentar referencia al ALIAS.