# Consultas SQL


Antes de empezar cargamos nuestro archivo data_berka en nuestro entorno: [enlace](https://sorry.vse.cz/~berka/challenge/pkdd1999/berka.htm)

In [None]:
!gdown --id 1Osmr7qVN0NMuqYxvLesNn7H4nqPCVbsU

Downloading...
From: https://drive.google.com/uc?id=1Osmr7qVN0NMuqYxvLesNn7H4nqPCVbsU
To: /content/data_berka.db
100% 70.2M/70.2M [00:00<00:00, 187MB/s]


En primer lugar cargamos la extensión que nos va permitir manejar comandos sql directamente en colab


In [None]:
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


Y conectamos con la base de datos

In [None]:
%sql sqlite:///data_berka.db

'Connected: @data_berka.db'

Comprobamos esquema

In [None]:
%%sql
SELECT name,type
FROM sqlite_master
WHERE type = 'table'

 * sqlite:///data_berka.db
Done.


name,type
DISTRICT,table
ACCOUNT,table
TRANS,table
CLIENT,table
DISPOSITION,table
CREDIT_CARD,table
LOAN,table
PERMANENT_ORDER,table


## Consultas sobre Préstamos

1. Obtener todos los atributos que tiene el banco sobre sus préstamos


(extra limitar a 20 registros)

In [None]:
%%sql
SELECT *
FROM LOAN
LIMIT 20
# SELECT *, seleccionará todas las variables de la tabla.
## Al poner FROM LOAN se escoge la tabla de la que quieres extraer variables
### LIMIT 20 simplemente limita las salidas a 20 para facilitar la lectura en nuestro caso.

 * sqlite:///data_berka.db
(sqlite3.OperationalError) unrecognized token: "#"
[SQL: SELECT *
FROM LOAN
LIMIT 20
# SELECT *, seleccionará todas las variables de la tabla.
## Al poner FROM LOAN se escoge la tabla de la que quieres extraer variables
### LIMIT 20 simplemente limita las salidas a 20 para facilitar la lectura en nuestro caso.]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


2. Obtener los campos de fecha (date), amount (cantidad), duración (duration), pagos (payments), estado (status)

(extra limitar a 20 registros)

In [None]:
%%sql
SELECT date, amount, duration, payments, status
FROM LOAN
ORDER BY amount DESC
LIMIT 20
# ORDER BY ordena los datos según la variable seleccionada, DESC ordena que empiece por los valores más altos.

 * sqlite:///data_berka.db
(sqlite3.OperationalError) unrecognized token: "#"
[SQL: SELECT date, amount, duration, payments, status
FROM LOAN
ORDER BY amount DESC
LIMIT 20
# ORDER BY ordena los datos según la variable seleccionada, DESC ordena que empiece por los valores más altos.]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


3. Obtener los distintos tipos de estado que se presentan en un préstamo.

In [None]:
%%sql
SELECT DISTINCT status
FROM LOAN
GROUP BY status

 * sqlite:///data_berka.db
Done.


status
A
B
C
D


4. Obtener solo los prestamos ya terminados.

In [None]:
%%sql
SELECT *
FROM LOAN
WHERE status in ("A", "B")
LIMIT 20
# WHERE nos está seleccionando dos de las entradas posibles de la variable status y solo muestra las salidas que contengan una de ellas.

 * sqlite:///data_berka.db
(sqlite3.OperationalError) unrecognized token: "#"
[SQL: SELECT *
FROM LOAN
WHERE status in ("A", "B")
LIMIT 20
# WHERE nos está seleccionando dos de las entradas posibles de la variable status y solo muestra las salidas que contengan una de ellas.]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


5. Ordenar lo anterior por duración y cantidad

extra: limitar a 20 elementos

In [None]:
%%sql
SELECT *
FROM LOAN
WHERE status in ("A", "B")
ORDER BY duration, amount DESC
LIMIT 20
# Aquí se demuestra que se puede ordenar por dos variables diferentes, como primera regla duración y luego cantidad.

 * sqlite:///data_berka.db
(sqlite3.OperationalError) unrecognized token: "#"
[SQL: SELECT *
FROM LOAN
WHERE status in ("A", "B")
ORDER BY duration, amount DESC
LIMIT 20
# Aquí se demuestra que se puede ordenar por dos variables diferentes, como primera regla duración y luego cantidad.]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


Cargar el resultado de la SQL en un dataframe de Pandas

In [None]:
#importar librería
import pandas as pd
#ejecutar sql
df= %sql SELECT * FROM LOAN WHERE status in ("A","B") ORDER BY duration, amount DESC LIMIT 20
#transformar el dataframe en pandas
df.DataFrame()

 * sqlite:///data_berka.db
Done.


Unnamed: 0,loan_id,account_id,date,amount,duration,payments,status
0,6934,9494,970209,116832,12,9736,A
1,5002,173,940531,104808,12,8734,A
2,4986,97,970810,102876,12,8573,A
3,5375,2106,961003,101520,12,8460,A
4,7253,11079,970426,98304,12,8192,A
5,6998,9833,940521,97632,12,8136,A
6,6612,7907,970831,97392,12,8116,A
7,5314,1787,930705,96396,12,8033,B
8,6995,9814,960926,96168,12,8014,A
9,5464,2419,950130,95808,12,7984,A


Ex. 1

>Plantear otro filtro para los préstamos (por cantidad, duración, status, etc.)


In [None]:
%%sql
SELECT *
FROM LOAN
WHERE amount > 500000
ORDER BY amount DESC
#Aquí solo se muestran los préstamos realizados de cantidad superior a 500.000


 * sqlite:///data_berka.db
(sqlite3.OperationalError) near "#Aquí": syntax error
[SQL: SELECT *
FROM LOAN
WHERE amount > 500000
ORDER BY amount DESC
#Aquí solo se muestran los préstamos realizados de cantidad superior a 500.000]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


 Ex. 2 

> Seleccionar fecha, cantidad, duración y pagos de aquellos préstamos que han sido terminados ordenados de mayor a menor cantidad de dinero

>extra: volcar en un DataFrame

In [None]:
%%sql
SELECT date, amount, duration, payments
FROM LOAN
WHERE status in ("A", "B") AND duration > 12
ORDER BY amount DESC
LIMIT 20
# AND anñade otra restricción de filtro, en este caso, establecemos una duración superior a 12 meses para préstamos en estado A o B

 * sqlite:///data_berka.db
(sqlite3.OperationalError) unrecognized token: "#"
[SQL: SELECT date, amount, duration, payments
FROM LOAN
WHERE status in ("A", "B") AND duration > 12
ORDER BY amount DESC
LIMIT 20
# AND anñade otra restricción de filtro, en este caso, establecemos una duración superior a 12 meses para préstamos en estado A o B]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


In [None]:
%%sql
SELECT COUNT(*)
FROM LOAN
WHERE status in ("C", "D") AND duration between 24 and 48
#COUNT realiza un recuento de los datos que arroja la sentencia.

 * sqlite:///data_berka.db
(sqlite3.OperationalError) near "#COUNT": syntax error
[SQL: SELECT COUNT(*)
FROM LOAN
WHERE status in ("C", "D") AND duration between 24 and 48
#COUNT realiza un recuento de los datos que arroja la sentencia.]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


## Group By

7. ¿Cuántos préstamos hay por cada estado y cual es la media de la cantidad de dinero prestado?

In [None]:
%%sql
SELECT status, count(*) as "total", avg (amount) as "media del dinero"
FROM LOAN
WHERE duration >= 24 
GROUP BY status
HAVING total > 25
ORDER BY total DESC
# Se puede llamar a una variables poniendo después as.
## avg es para obtener la media de la variable deseada
### Con HAVING filtramos funciones ya escritas, se escoge si mostrar o no el grupo completo.

 * sqlite:///data_berka.db
(sqlite3.OperationalError) unrecognized token: "#"
[SQL: SELECT status, count(*) as "total", avg (amount) as "media del dinero"
FROM LOAN
WHERE duration >= 24 
GROUP BY status
HAVING total > 25
ORDER BY total DESC
# Se puede llamar a una variables poniendo después as.
## avg es para obtener la media de la variable deseada
### Con HAVING filtramos funciones ya escritas, se escoge si mostrar o no el grupo completo.]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


8. Por cada Región, quiero contar el número de ciudades y obtener el total del número de habitantes de la región



In [None]:
%%sql
SELECT A3, sum(A9), sum(A4)
FROM district
WHERE NOT A3 =="Prague"
GROUP BY A3
# WHERE NOT selecciona justo el resultado que seleccionamos. En este caso, se quiere seleccionar todas las regiones menos Praga



 * sqlite:///data_berka.db
(sqlite3.OperationalError) unrecognized token: "#"
[SQL: SELECT A3, sum(A9), sum(A4)
FROM district
WHERE NOT A3 =="Prague"
GROUP BY A3
# WHERE NOT selecciona justo el resultado que seleccionamos. En este caso, se quiere seleccionar todas las regiones menos Praga]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


9. Contar ordenes permanentes (domiciliaciones) por banco y tipo de transacción

In [None]:
%%sql
SELECT bank_to, k_symbol, count(*) as c
FROM PERMANENT_ORDER
WHERE amount < 500
GROUP BY bank_to, k_symbol
ORDER BY bank_to

 * sqlite:///data_berka.db
Done.


bank_to,k_symbol,c
AB,,20
AB,POJISTNE,16
AB,SIPO,17
CD,,34
CD,POJISTNE,11
CD,SIPO,18
EF,,23
EF,POJISTNE,21
EF,SIPO,10
EF,UVER,1


# JOIN

10. ¿Cuántas cuentas de frecuencia mensual tienen un un préstamo activo?



In [None]:
%%sql
SELECT loan_id, A4, A9, A10, A11, SUBSTR(c.birth_number, 0,3), l.date loan_date, amount, duration, payments, frequency, a.date acc_date, status
FROM LOAN l, ACCOUNT a, DISTRICT d, DISPOSITION dp, CLIENT c
WHERE l.account_id = a.account_id
AND  a.district_id= d.A1
AND status in ("A", "B")
AND dp.account_id= a.account_id  --join disposition y account
AND dp.client_id= c.client_id --join disposition client
AND dp.type= "OWNER"
LIMIT 10 
# SUBSTR es para escoger parte de un dato concreto.
## Si después de poner una variable en FROM ponemos al lado algo, la nombraremos así automáticamente.
### Si hay dos tablas que comparten clave, es necesario decir al programa que ambas se refieren a lo mismo. De ahí la sentencia de WHERE.


 * sqlite:///data_berka.db
(sqlite3.OperationalError) unrecognized token: "#"
[SQL: SELECT loan_id, A4, A9, A10, A11, SUBSTR(c.birth_number, 0,3), l.date loan_date, amount, duration, payments, frequency, a.date acc_date, status
FROM LOAN l, ACCOUNT a, DISTRICT d, DISPOSITION dp, CLIENT c
WHERE l.account_id = a.account_id
AND  a.district_id= d.A1
AND status in ("A", "B")
AND dp.account_id= a.account_id  --join disposition y account
AND dp.client_id= c.client_id --join disposition client
AND dp.type= "OWNER"
LIMIT 10 
# SUBSTR es para escoger parte de un dato concreto.
## Si después de poner una variable en FROM ponemos al lado algo, la nombraremos así automáticamente.
### Si hay dos tablas que comparten clave, es necesario decir al programa que ambas se refieren a lo mismo. De ahí la sentencia de WHERE.]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


11. Domiciliaciones en cuentas de actualización semanal de alquiler en cuentas de Praga

In [None]:
%%sql
SELECT avg(l.amount) as "media de cantidad prestada"
FROM LOAN l, ACCOUNT a, DISTRICT d
WHERE l.account_id= a.account_id
AND a.district_id = d.A1
and d.A3 = "Prague"


 * sqlite:///data_berka.db
Done.


media de cantidad prestada
153957.2857142857


In [None]:
%%sql
SELECT count(*)
FROM LOAN
WHERE amount > 153957.2857142857 (SELECT avg(l.amount)
  FROM LOAN l, ACCOUNT a, DISTRICT d
    WHERE l.account_id= a.account_id
    AND a.district_id = d.A1
      and d.A3 = "Prague")

 * sqlite:///data_berka.db
(sqlite3.OperationalError) near "(": syntax error
[SQL: SELECT count(*)
FROM LOAN
WHERE amount > 153957.2857142857 (SELECT avg(l.amount)
  FROM LOAN l, ACCOUNT a, DISTRICT d
    WHERE l.account_id= a.account_id
    AND a.district_id = d.A1
      and d.A3 = "Prague")]
(Background on this error at: https://sqlalche.me/e/14/e3q8)



12. Domiciliaciones (*órdenes*) semanales para alquiler (*leasing*) en cuentas de Praga

 - Ordenes permanentes de alquiler (*leasing*) y semanales (*weekly*)
 - Relación con cuentas que tienen región Praga

In [None]:
%%sql
SELECT order_id, k_symbol, bank_to, a.account_id, a.frequency, d.A2, d.A3
FROM PERMANENT_ORDER p, ACCOUNT a, DISTRICT d
WHERE p.account_id = a.account_id and a.district_id = d.A1
  and k_symbol = "LEASING" and a.frequency = "weekly" and d.A3 = "Prague"

 * sqlite:///data_berka.db
Done.


order_id,k_symbol,bank_to,account_id,frequency,A2,A3
29514,LEASING,OP,72,weekly,Hl.m. Praha,Prague
30250,LEASING,CD,573,weekly,Hl.m. Praha,Prague
30944,LEASING,IJ,1056,weekly,Hl.m. Praha,Prague
34056,LEASING,OP,3141,weekly,Hl.m. Praha,Prague
35237,LEASING,AB,3959,weekly,Hl.m. Praha,Prague
40429,LEASING,ST,7465,weekly,Hl.m. Praha,Prague


13. Transacciones relacionadas con pensiones (DUCHOD) en Plzen desde el banco MN

(limitar a 10)

In [None]:
%%sql
SELECT trans_id, a.account_id, k_symbol, bank
FROM TRANS t, ACCOUNT a, DISTRICT d
WHERE t.account_id = a.account_id and a.district_id = d.A1
  and k_symbol = "DUCHOD" and bank = "MN" and d.A2 like "Plzen%"  
LIMIT 10


 * sqlite:///data_berka.db
Done.


trans_id,account_id,k_symbol,bank
47969,161,DUCHOD,MN
47970,161,DUCHOD,MN
47971,161,DUCHOD,MN
47972,161,DUCHOD,MN
47973,161,DUCHOD,MN
47974,161,DUCHOD,MN
47975,161,DUCHOD,MN
47976,161,DUCHOD,MN
47977,161,DUCHOD,MN
1098524,3753,DUCHOD,MN


# Subconsultas

14. Prestamos cuya cantidad es superior a la media de los clientes de Praga

- Cantidad media prestada a los cuentas de Praga 

In [None]:
%%sql
SELECT avg(l.amount)
FROM LOAN l, ACCOUNT a, DISTRICT D
WHERE l.account_id = a.account_id and a.district_id = d.A1 
and d.A3 = "Prague"


 * sqlite:///data_berka.db
Done.


avg(l.amount)
153957.2857142857


- Consultar los préstamos superiores a esa cantidad

In [None]:
%%sql
SELECT count() as "total de prestamos superiores"
FROM LOAN
WHERE amount > (SELECT avg(l.amount)
        FROM LOAN l, ACCOUNT a, DISTRICT d
        WHERE l.account_id = a.account_id and a.district_id = d.A1  
        and d.A3 = "Prague")
# Se han seleccionado el total de préstamos que son superiores a la media, si se elimina "count()"" se realizará el desglose de estos



 * sqlite:///data_berka.db
(sqlite3.OperationalError) unrecognized token: "#"
[SQL: SELECT count() as "total de prestamos superiores"
FROM LOAN
WHERE amount > (SELECT avg(l.amount)
        FROM LOAN l, ACCOUNT a, DISTRICT d
        WHERE l.account_id = a.account_id and a.district_id = d.A1  
        and d.A3 = "Prague")
# Se han seleccionado el total de préstamos que son superiores a la media, si se elimina "count()"" se realizará el desglose de estos]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


# Repaso de Join/Group By

## Objetivo 2.1

15 . Clientes de Praga con préstamos según su estado

- ¿Cuántos clientes hay en Praga?
- ¿Cuántas cuentas tienen asociados clientes en Praga?
- ¿cuántas de esas cuentas tienen asociados un préstamo?
- Necesito saber cuántos hay por cada estado (*status*)


In [None]:
%%sql 
SELECT status, count(*)
FROM CLIENT c, DISTRICT d, DISPOSITION dp, LOAN l 
WHERE c.district_id = d.A1 and c.client_id = dp.client_id
and l.account_id = dp.account_id and d.A3 = "Prague"
GROUP BY status


 * sqlite:///data_berka.db
Done.


status,count(*)
A,37
B,3
C,55
D,3


## Ejercicio

> cantidad de dinero medio en transacciones de clientes propietarios de cuentas en Kolin (owned accounts)

In [None]:
%%sql
SELECT c.client_id, avg (amount) as av
from client c, district d, disposition ds, account a, trans t
WHERE c.district_id = d.A1 and c.client_id = ds.client_id
    and ds.account_id = a.account_id and a.account_id = t.account_id
and d.A2 = "Kolin" and ds.type = "OWNER" 
GROUP BY c.client_id
ORDER BY av DESC
LIMIT 10

 * sqlite:///data_berka.db
Done.


client_id,av
5249,15611.831578947367
3378,14803.997402597402
1388,14464.587096774194
6803,13825.125153374232
8091,13227.722338204592
3298,13074.464857881138
1806,13037.759375
4331,12644.448051948051
4974,12023.291743119267
3080,11784.50460251046


> sanction interest if negative balance Cesky Krumlov


> stands for loan payment in Praha from the bank EF

# Extra: Left Join

1. ¿Cuántas cuentas hay? 4500
2. ¿Cuántas cuentas hay con préstamos? (inner join) 682
3. Cuentas con los datos de los préstamos si los hay
4. los ordenamos por cantidad


In [None]:
%%sql 
SELECT a.account_id, a.date, l.amount, l.status, l.payments, l.duration
FROM ACCOUNT a INNER OUTER JOIN LOAN l ON a.account_id = l.account_id
ORDER BY amount DESC




 * sqlite:///data_berka.db
(sqlite3.OperationalError) unknown or unsupported join type: INNER OUTER
[SQL: SELECT a.account_id, a.date, l.amount, l.status, l.payments, l.duration
FROM ACCOUNT a INNER OUTER JOIN LOAN l ON a.account_id = l.account_id
ORDER BY amount DESC]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


# DataSets

---

Dataset sobre las transacciones con Vyskov, extrayendo los años de las diferentes fechas. 

In [None]:
%%sql dataset << SELECT substr(a.date,0,3) acc_year, substr(t.date, 0, 3) year,amount, balance, k_symbol
FROM ACCOUNT a, TRANS t, DISTRICT d
WHERE a.district_id = d.A1 and d.A2 = "Vyskov"
AND a.account_id = t.account_id
#Se va a crear un dataset y se le va a insertar la sentencia posterior desoués de <<

 * sqlite:///data_berka.db
Done.
Returning data to local variable dataset


In [None]:
dataset.DataFrame().to_csv("dataset.csv")