# Consultas SQL


Antes de empezar cargamos nuestro archivo data_berka en nuestro entorno: [enlace](https://sorry.vse.cz/~berka/challenge/pkdd1999/berka.htm)

In [None]:
!gdown --id 1Osmr7qVN0NMuqYxvLesNn7H4nqPCVbsU

Downloading...
From: https://drive.google.com/uc?id=1Osmr7qVN0NMuqYxvLesNn7H4nqPCVbsU
To: /content/data_berka.db
100% 70.2M/70.2M [00:00<00:00, 201MB/s]


En primer lugar cargamos la extensión que nos va permitir manejar comandos sql directamente en colab


In [None]:
%load_ext sql

Y conectamos con la base de datos

In [None]:
%sql sqlite:///data_berka.db

'Connected: @data_berka.db'

Comprobamos esquema

In [None]:
%%sql
SELECT name,type #SELECT se utiliza para recuperar información de una base de datos. 
FROM sqlite_master
WHERE type = 'table' #WHERE contiene una condición que se debe cumplir.

 * sqlite:///data_berka.db
(sqlite3.OperationalError) near "#SELECT": syntax error
[SQL: SELECT name,type #SELECT se utiliza para recuperar información de una base de datos. 
FROM sqlite_master
WHERE type = 'table' #WHERE contiene una condición que se debe cumplir.]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


Una sentencia SELECT debe incluir: una cláusula SELECT, que especifica las columnas que se van a mostrar y una cláusula FROM que especifica la tabla que contiene las columnas enumeradas en la cláusula SELECT.

## Consultas sobre Préstamos

1. Obtener todos los atributos que tiene el banco sobre sus préstamos.

(extra limitar a 20 registros)

In [None]:
%%sql
SELECT * -- Mediante el uso del asterisco se usa para mostrar todas las columnas de datos de una tabla.
FROM LOAN
LIMIT 20

 * sqlite:///data_berka.db
Done.


loan_id,account_id,date,amount,duration,payments,status
5314,1787,930705,96396,12,8033,B
5316,1801,930711,165960,36,4610,A
6863,9188,930728,127080,60,2118,A
5325,1843,930803,105804,36,2939,A
7240,11013,930906,274740,60,4579,A
6687,8261,930913,87840,24,3660,A
7284,11265,930915,52788,12,4399,A
6111,5428,930924,174744,24,7281,B
7235,10973,931013,154416,48,3217,A
5997,4894,931104,117024,24,4876,A


2. Obtener los campos de fecha (date), cantidad (amount), duración (duration), pagos (payments), estado (status)

(extra limitar a 20 registros)

In [None]:
%%sql
SELECT date, amount, duration, paymentS, status
FROM LOAN
ORDER BY amount DESC -- ORDER BY se utiliza para ordenar datos, por defecto se ordenan de manera ascendete, por tanto, DESC se utiliza para ordenarlos de manera descendente.
LIMIT 20

 * sqlite:///data_berka.db
Done.


date,amount,duration,payments,status
971019,590820,60,9847,C
980123,566640,60,9444,C
971112,541200,60,9020,D
950217,538500,60,8975,C
980120,504000,60,8400,C
980522,495180,60,8253,C
941219,482940,60,8049,D
970212,475680,48,9910,C
970907,473280,60,7888,D
971225,468060,60,7801,C


3. Obtener los distintos tipos de estado que se presentan en un préstamo.

In [None]:
%%sql
SELECT DISTINCT status -- SELECT DISTINCT se usa para devolver solo valores distintos (diferentes).
FROM LOAN
ORDER BY status

 * sqlite:///data_berka.db
Done.


status
A
B
C
D


4. Obtener solo los prestamos ya terminados.

In [None]:
%%sql
SELECT *
FROM LOAN
WHERE status in ("A","B") -- IN se utiliza para probar si un valor está en un juego de valores específico.
LIMIT 100


 * sqlite:///data_berka.db
Done.


loan_id,account_id,date,amount,duration,payments,status
5314,1787,930705,96396,12,8033,B
5316,1801,930711,165960,36,4610,A
6863,9188,930728,127080,60,2118,A
5325,1843,930803,105804,36,2939,A
7240,11013,930906,274740,60,4579,A
6687,8261,930913,87840,24,3660,A
7284,11265,930915,52788,12,4399,A
6111,5428,930924,174744,24,7281,B
7235,10973,931013,154416,48,3217,A
5997,4894,931104,117024,24,4876,A


5. Ordenar lo anterior por duración y cantidad

extra: limitar a 20 elementos

In [None]:
%%sql
SELECT *
FROM LOAN
WHERE status in ("A","B")
ORDER BY duration, amount DESC
LIMIT 20

 * sqlite:///data_berka.db
Done.


loan_id,account_id,date,amount,duration,payments,status
6934,9494,970209,116832,12,9736,A
5002,173,940531,104808,12,8734,A
4986,97,970810,102876,12,8573,A
5375,2106,961003,101520,12,8460,A
7253,11079,970426,98304,12,8192,A
6998,9833,940521,97632,12,8136,A
6612,7907,970831,97392,12,8116,A
5314,1787,930705,96396,12,8033,B
6995,9814,960926,96168,12,8014,A
5464,2419,950130,95808,12,7984,A


Cargar el resultado de la sql en un DataFrame de Pandas

In [None]:
#importar librería
import pandas as pd
#ejecutar sql
df = %sql SELECT * FROM LOAN WHERE status in ("A","B") ORDER BY duration, amount DESC
#transformar en DataFrame de pandas y descargarlo en un csv
df.DataFrame().to_csv("first_sql.csv")

 * sqlite:///data_berka.db
Done.


Ex. 1

>Plantear otro filtro para los préstamos (por cantidad, duración, status, etc.)


In [None]:
%%sql
SELECT *
FROM LOAN
WHERE amount < 500000
ORDER BY amount DESC

 * sqlite:///data_berka.db
Done.


loan_id,account_id,date,amount,duration,payments,status
6436,7049,980522,495180,60,8253,C
7142,10451,941219,482940,60,8049,D
6415,6950,970212,475680,48,9910,C
6625,7966,970907,473280,60,7888,D
5043,339,971225,468060,60,7801,C
5486,2516,970613,466608,48,9721,C
5976,4794,971227,465504,48,9698,D
5970,4774,950709,465072,48,9689,C
6228,6034,931201,464520,60,7742,B
5731,3711,971105,460980,60,7683,D


Operadores de comparación en WHERE: 

*   = igual que 
*   < menor que, > mayor que
*   <> o ! no es igual que 











 Ex. 2 

> Seleccionar fecha, cantidad, duración y pagos de aquellos préstamos que han sido terminados con una duración mayor de 12 meses ordenados de mayor a menor cantidad de dinero

>extra: volcar en un DataFrame

In [None]:
%%sql
SELECT date, amount, duration, payments
FROM LOAN
WHERE status in ("A","B") AND duration > 12 -- Con AND los resultados serán las filas que cumplan ambas condiciones especificas en WHERE.
ORDER BY amount DESC
LIMIT 100

 * sqlite:///data_berka.db
Done.


date,amount,duration,payments
931201,464520,60,7742
940810,323472,48,6739
940604,300204,36,8339
940730,299088,36,8308
950103,288468,36,8013
940708,276660,36,7685
930906,274740,60,4579
950108,270648,36,7518
950623,265320,36,7370
951028,260028,36,7223


¿Cuantos registros cumplen esta condición?

In [None]:
%%sql
SELECT count(*) -- Count (*) devuelve el número de filas de una tabla.
FROM LOAN
WHERE status in ("A","B") AND duration > 12 

 * sqlite:///data_berka.db
Done.


count(*) -- Count (*) devuelve el número de filas de una tabla.
131


COUNT: devuelve el número de valores no nulos de la columna de expresión. 

COUNT(*): querermos asegurarnos de contar todas las filas (duplicados incluidos). 

¿Cuantos préstamos hay en ejecución (running) con duración entre 24 y 48 meses?

In [None]:
%%sql
SELECT count(*)
FROM LOAN
WHERE status in ("C","D") AND duration between 24 and 48 -- Between...And en WHERE devuelve un rango de valores entre los límites inferior y superior, incluyendo estos.

 * sqlite:///data_berka.db
Done.


count(*)
279


BETWEEN...AND: se utiliza para seleccionar y mostrar las filas según un rango de valores.

## Group By

7. ¿Cuántos préstamos hay por cada estado y cual es la media de la cantidad de dinero prestado?
Where: se filtran los registros antes de agruparlos; Having: se filtran los grupos tras obtenerlos.

In [None]:
%%sql
SELECT status, count(*) as total, avg(amount) -- AVG = Media
FROM LOAN 
WHERE duration >= 24
GROUP BY status -- Se utiliza GROUP BY para dividir las filas de una tabla en grupos más pequeños.
HAVING total > 25 -- Se utiliza HAVING para restringir los grupos devueltos por una cláusula GROUP BY.
ORDER BY total DESC

 * sqlite:///data_berka.db
Done.


status,total,avg(amount) -- AVG = Media
C,376,180343.1489361702
A,110,122425.2
D,44,254127.27272727276


WHERE para restringir las filas; y HAVING para restringir los grupos devueltos por una cláusula GROUP BY.

8. Por cada Región, quiero contar el número de ciudades y obtener el total del número de habitantes de la región



In [None]:
%%sql
SELECT A3, count(A2) no_district, sum(A9), sum(A4) total_hab -- SUM se utiliza con las columnas que almacenan los datos numéricos para buscar la suma o total de valores.
FROM DISTRICT
WHERE NOT A3 = "Prague" -- Donde No sea Praga.
GROUP BY A3


 * sqlite:///data_berka.db
Done.


A3,no_district,sum(A9),total_hab
central Bohemia,12,66,1105234
east Bohemia,11,86,1234781
north Bohemia,10,70,1178977
north Moravia,11,60,1970302
south Bohemia,8,48,700595
south Moravia,14,82,2054989
west Bohemia,10,69,859306


9. Contar ordenes permanentes (domiciliaciones) por banco y tipo de transacción

In [None]:
%%sql
SELECT bank_to, k_symbol, count(*) as c
FROM PERMANENT_ORDER
WHERE amount < 500
GROUP BY bank_to, k_symbol
ORDER BY bank_to

# JOIN

10. ¿Cuántas cuentas de frecuencia mensual tienen un un préstamo activo?



In [None]:
%%sql
SELECT loan_id, A4, A9, A10, A11, c.birth_number, l.date loan_date, amount, duration, payments, frequency, a.date acc_date, status
FROM LOAN l, ACCOUNT a, DISTRICT d, DISPOSITION dp, CLIENT c
WHERE l.account_id = a.account_id -- Condición de unión join loan / account
AND a. district_id = d.A1 -- Condición de unión join loan / district
AND dp.account_id = a.account_id -- join account / disposition
AND status in ("A", "B")
ORDER BY amount DESC, a.date DESC
LIMIT 10

 * sqlite:///data_berka.db
Done.


loan_id,A4,A9,A10,A11,birth_number,loan_date,amount,duration,payments,frequency,acc_date,status
6228,77963,4,51.5,8546,706213,931201,464520,60,7742,weekly,930319,B
6228,77963,4,51.5,8546,450204,931201,464520,60,7742,weekly,930319,B
6228,77963,4,51.5,8546,406009,931201,464520,60,7742,weekly,930319,B
6228,77963,4,51.5,8546,561201,931201,464520,60,7742,weekly,930319,B
6228,77963,4,51.5,8546,605703,931201,464520,60,7742,weekly,930319,B
6228,77963,4,51.5,8546,190922,931201,464520,60,7742,weekly,930319,B
6228,77963,4,51.5,8546,290125,931201,464520,60,7742,weekly,930319,B
6228,77963,4,51.5,8546,385221,931201,464520,60,7742,weekly,930319,B
6228,77963,4,51.5,8546,351016,931201,464520,60,7742,weekly,930319,B
6228,77963,4,51.5,8546,430501,931201,464520,60,7742,weekly,930319,B


11. Domiciliaciones en cuentas de actualización semanal de alquiler en cuentas de Praga

In [None]:
%%sql
SELECT order_id, p.account_id, amount
FROM PERMANENT_ORDER p, ACCOUNT a, DISTRICT d
WHERE p.account_id = a.account_id
and a.district_id = d.A1
and k_symbol = "LEASING" 
and frequency = "weekly" -- Frecuencia sea semanal 
and A3 = "Prague"

 * sqlite:///data_berka.db
Done.


order_id,account_id,amount
29514,72,2923.0
30250,573,2249.0
30944,1056,2531.7
34056,3141,1087.0
35237,3959,1680.6
40429,7465,1060.6



12. Domiciliaciones (*órdenes*) semanales para alquiler (*leasing*) en cuentas de Praga

 - Ordenes permanentes de alquiler (*leasing*) y semanales (*weekly*)
 - Relación con cuentas que tienen región Praga

In [None]:
%%sql
SELECT order_id, k_symbol, bank_to, a.account_id, a.frequency, d.A2, d.A3
FROM PERMANENT_ORDER p, ACCOUNT a, DISTRICT d
WHERE p.account_id = a.account_id and a.district_id = d.A1
    and k_symbol = "LEASING" and a.frequency = "weekly" and d.A3 = "Prague"

 * sqlite:///data_berka.db
Done.


order_id,k_symbol,bank_to,account_id,frequency,A2,A3
29514,LEASING,OP,72,weekly,Hl.m. Praha,Prague
30250,LEASING,CD,573,weekly,Hl.m. Praha,Prague
30944,LEASING,IJ,1056,weekly,Hl.m. Praha,Prague
34056,LEASING,OP,3141,weekly,Hl.m. Praha,Prague
35237,LEASING,AB,3959,weekly,Hl.m. Praha,Prague
40429,LEASING,ST,7465,weekly,Hl.m. Praha,Prague


13. Transacciones relacionadas con pensiones (DUCHOD) en Plzen desde el banco MN

(limitar a 10)

In [None]:
%%sql
SELECT trans_id, a.account_id, k_symbol, bank
FROM TRANS t, ACCOUNT a, DISTRICT d
WHERE t.account_id = a.account_id and a.district_id = d.A1
  and k_symbol = "DUCHOD" and bank = "MN" and d.A2 like "Plzen%" -- Like permite seleccionar las filas que coincidan con caracteres, fechas o patrones de números.
LIMIT 10


 * sqlite:///data_berka.db
Done.


trans_id,account_id,k_symbol,bank
47969,161,DUCHOD,MN
47970,161,DUCHOD,MN
47971,161,DUCHOD,MN
47972,161,DUCHOD,MN
47973,161,DUCHOD,MN
47974,161,DUCHOD,MN
47975,161,DUCHOD,MN
47976,161,DUCHOD,MN
47977,161,DUCHOD,MN
1098524,3753,DUCHOD,MN


# Subconsultas

14. Prestamos cuya cantidad es superior a la media de los clientes de Praga

- Cantidad media prestada a los cuentas de Praga 

In [None]:
%%sql
SELECT avg(l.amount)
FROM LOAN l, ACCOUNT a, DISTRICT D
WHERE l.account_id = a.account_id 
AND a.district_id = d.A1
AND d.A3 = "Prague"

 * sqlite:///data_berka.db
Done.


avg(l.amount)
153957.2857142857


- Consultar los préstamos superiores a esa cantidad

In [None]:
%%sql
SELECT * FROM LOAN 
WHERE amount > (SELECT avg(l.amount)
        FROM LOAN l, ACCOUNT a, DISTRICT d
        WHERE l.account_id = a.account_id and a.district_id = d.A1  
        and d.A3 = "Prague")
ORDER BY amount DESC


Ahora en lugar de que se muestren los préstamos correspondientes a dicha consulta, se muestran la cantidad que hay de estos. 

In [None]:
%%sql
SELECT count(*)
FROM LOAN
WHERE amount > (SELECT avg(l.amount)
      FROM LOAN l, ACCOUNT a, DISTRICT D
      WHERE l.account_id = a.account_id 
      AND a.district_id = d.A1
      AND d.A3 = "Prague")

 * sqlite:///data_berka.db
Done.


count(*)
277


# Repaso de Join/Group By

## Objetivo 2.1

15 . Clientes de Praga con préstamos según su estado

- ¿Cuántos clientes hay en Praga?
- ¿Cuántas cuentas tienen asociados clientes en Praga?
- ¿cuántas de esas cuentas tienen asociados un préstamo?
- Necesito saber cuántos hay por cada estado (*status*)


In [None]:
%%sql 
SELECT status, count(*)
FROM CLIENT c, DISTRICT d, DISPOSITION dp, LOAN l 
WHERE c.district_id = d.A1 and c.client_id = dp.client_id
and l.account_id = dp.account_id and d.A3 = "Prague"
GROUP BY status

 * sqlite:///data_berka.db
Done.


status,count(*)
A,37
B,3
C,55
D,3


## Ejercicio

> cantidad de dinero medio en transacciones de clientes propietarios de cuentas en Kolin (owned accounts)

In [None]:
%%sql
SELECT c.client_id, avg (amount) as av
from client c, district d, disposition ds, account a, trans t
WHERE c.district_id = d.A1 and c.client_id = ds.client_id
    and ds.account_id = a.account_id and a.account_id = t.account_id
and d.A2 = "Kolin" and ds.type = "OWNER" 
GROUP BY c.client_id
ORDER BY av DESC
LIMIT 10



 * sqlite:///data_berka.db
Done.


client_id,av
5249,15611.831578947367
3378,14803.997402597402
1388,14464.587096774194
6803,13825.125153374232
8091,13227.722338204592
3298,13074.464857881138
1806,13037.759375
4331,12644.448051948051
4974,12023.291743119267
3080,11784.50460251046


> sanction interest if negative balance Cesky Krumlov


> stands for loan payment in Praha from the bank EF

# Extra: Left Join

1. ¿Cuántas cuentas hay? 4500
2. ¿Cuántas cuentas hay con préstamos? (inner join) 682
3. Cuentas con los datos de los préstamos si los hay
4. los ordenamos por cantidad


In [None]:
%%sql 
SELECT a.account_id, a.date, l.amount, l.status, l.payments, l.duration
FROM ACCOUNT a INNER OUTER JOIN LOAN l ON a.account_id = l.account_id -- ON nos permite especificar una mayor variedad de condiciones de unión.
ORDER BY amount DESC

 * sqlite:///data_berka.db
(sqlite3.OperationalError) unknown or unsupported join type: INNER OUTER
[SQL: SELECT a.account_id, a.date, l.amount, l.status, l.payments, l.duration
FROM ACCOUNT a INNER OUTER JOIN LOAN l ON a.account_id = l.account_id -- ON nos permite especificar una mayor variedad de condiciones de unión.
ORDER BY amount DESC]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


LEFT OUTER JOIN, o simplemente Left Join, mantendrá los datos no relacionados de la izquierda (la primera) tabla.

# DataSets

---

Dataset sobre las transacciones con Vyskov, extrayendo los años de las diferentes fechas. 

In [None]:
%%sql dataset << SELECT substr(a.date,0,3) acc_year, substr(t.date, 0, 3) year,amount, balance, k_symbol
FROM ACCOUNT a, TRANS t, DISTRICT d
WHERE a.district_id = d.A1 and d.A2 = "Vyskov"
AND a.account_id = t.account_id


 * sqlite:///data_berka.db
Done.
Returning data to local variable dataset


In [None]:
dataset.DataFrame().to_csv("dataset.csv")