# PostgreSQL

## Borrado de datos

In [1]:
%alias dropdb docker exec -i postgres_container dropdb -U postgres 
%alias createdb docker exec -i postgres_container createdb -U postgres

In [2]:
dropdb black

dropdb: error: database removal failed: ERROR:  database "black" does not exist


In [3]:
createdb black

In [4]:
%load_ext sql

In [5]:
%sql postgresql://postgres:postgres@localhost/black


# Carga de datos en Pandas

Partimos de los datos normalizados en fichero Excel. Leemos cada hoja del fichero Excel en un DataFrame de Pandas distinto

In [6]:
import pandas as pd

In [7]:
df_mov = pd.read_excel("../../data/black.xlsx", sheet_name= "Movimientos", engine='openpyxl')
df_miembros = pd.read_excel("../../data/black.xlsx", sheet_name= "Miembros", engine='openpyxl')

Se realiza una pequeña comprobación para verificar que no hay datos duplicados

In [8]:
df_mov.head(5)

Unnamed: 0,id_miembro,fecha,hora,minuto,importe,comercio,actividad_completa,actividad
0,77,2006-04-17,11,40,44.56,FCIA TORRES MU¬OZ,FARMACIAS,SALUD
1,15,2010-09-11,14,26,67.56,E.S.VEGONES DER,C.A.M.P.S.A.,COCHE
2,29,2003-01-24,14,15,191.0,EL CORTE INGLES,EL CORTE INGLES,COMPRA BIENES
3,74,2007-05-10,15,2,599.2,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
4,77,2010-12-18,14,35,3.65,PK VELAZQUEZ JORGE JUAN,GARAJES Y APARCAMIENTOS,COCHE


In [9]:
(df_mov.groupby(['fecha', 'id_miembro', 'hora', 'minuto', 'comercio', 'importe']).size() > 1).sum()

0

In [10]:
df_mov.query('id_miembro == 77 and hora == 11 and minuto == 40')

Unnamed: 0,id_miembro,fecha,hora,minuto,importe,comercio,actividad_completa,actividad
0,77,2006-04-17,11,40,44.56,FCIA TORRES MU¬OZ,FARMACIAS,SALUD


Perfecto ;-)

## Creacción de tablas

Para almacenar la información se van a crear 2 tablas, una con movimientos y otra con los miembros de la organización que han realizado el movimiento.  
Las 2 tablas están relacionadas por el campo id_miembro (se llama igual en ambas tablas)

Adicionalmente se va a utilizar una secuencia que nos va a permitir tener una PK única para la tabla de movimientos


<br><br> 

<img src="images/Modelo_PostgreSQL.png" width="400" height="300">


<br><br>

La siguiente instrucción fallará la primera vez que se ejecuta!

In [11]:
%sql DROP TABLE movimientos
%sql DROP TABLE miembros
%sql DROP SEQUENCE seq_mov_id;

 * postgresql://postgres:***@localhost/black
(psycopg2.errors.UndefinedTable) table "movimientos" does not exist

[SQL: DROP TABLE movimientos]
(Background on this error at: http://sqlalche.me/e/f405)
 * postgresql://postgres:***@localhost/black
(psycopg2.errors.UndefinedTable) table "miembros" does not exist

[SQL: DROP TABLE miembros]
(Background on this error at: http://sqlalche.me/e/f405)
 * postgresql://postgres:***@localhost/black
(psycopg2.errors.UndefinedTable) sequence "seq_mov_id" does not exist

[SQL: DROP SEQUENCE seq_mov_id;]
(Background on this error at: http://sqlalche.me/e/f405)


In [12]:
%sql CREATE SEQUENCE seq_mov_id;

 * postgresql://postgres:***@localhost/black
Done.


[]

In [13]:
%%sql 
CREATE TABLE miembros (
    id_miembro      int not null PRIMARY KEY,
    nombre         varchar(200),
    funcion        varchar(40),
    organizacion   varchar(200),
    CONSTRAINT pk_miembros UNIQUE(id_miembro)
);

 * postgresql://postgres:***@localhost/black
Done.


[]

In [14]:
%%sql 
CREATE TABLE movimientos (
    id_movimiento   int not null default nextval('seq_mov_id'),
    fecha           date not null,
    hora            int not null,
    minuto          int not null,
    id_miembro      int not null REFERENCES miembros(id_miembro),
    importe         decimal not null,
    comercio        varchar(200),
    actividad_completa varchar(200),
    actividad       varchar(100),
    CONSTRAINT pk_movimientos UNIQUE(id_movimiento)
);

 * postgresql://postgres:***@localhost/black
Done.


[]

## Exportación de los datos a PostgreSQL

Para exportar los datos a la base de datos, vamos a aprovechar una funcionalidad que nos ofrece Pandas, de exportación de datos a una base de datos relacional.

En este caso hemos creado el esquema previamente, pero podríamos no haberlo hecho (parámetro **if_exists**)

In [15]:
from sqlalchemy import create_engine

In [16]:
engine = create_engine('postgresql://postgres:postgres@localhost:5432/black')

In [17]:
df_miembros.head(10)

Unnamed: 0,id_miembro,nombre,funcion,organizacion
0,1,Alberto Recarte García Andrade,concejal,Partido Popular
1,2,Alejandro Couceiro Ojeda,concejal,CEIM
2,83,Ángel Eugenio Gómez del Pulgar Perales,concejal,PSOE
3,3,Angel Rizaldos González,concejal,Izquierda Unida
4,4,Antonio Cámara Eguinoa,concejal,Partido Popular
5,5,Antonio Rey de Viñas Sánchez-Majestad,concejal,CC OO
6,6,Antonio Romero Lázaro,concejal,PSOE
7,7,Arturo Luis Fernández Álvarez,concejal,CEIM
8,8,Beltrán Gutiérrez Moliner,concejal,Partido Popular
9,12,Cándido Cerón Escudero,concejal,Partido Popular


In [18]:
df_miembros.to_sql('miembros', engine, if_exists = 'append', index = False)

In [19]:
df_mov.to_sql('movimientos', engine, if_exists = 'append', index = False)

Fijate que las columnas en Pandas y en la tabla tienen que ser exactamente las mismas y llamarse igual!

PostgreSQL pone automáticamente el nombre de las columnas en minúscula a no ser que cuando crees la tabla pogas el nombre de las columnas entrecomillado.

# Consultando información

Hacemos unas querys previas para vericar que todo ha ido bien

In [20]:
%%sql
select count(*)
from movimientos

 * postgresql://postgres:***@localhost/black
1 rows affected.


count
7624


In [21]:
%%sql
select count(*)
from miembros

 * postgresql://postgres:***@localhost/black
1 rows affected.


count
83


In [22]:
%%sql
select count(distinct comercio || actividad || actividad_completa)
from movimientos
where comercio is not null

 * postgresql://postgres:***@localhost/black
1 rows affected.


count
3204


In [23]:
%%sql
select *
from movimientos
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


id_movimiento,fecha,hora,minuto,id_miembro,importe,comercio,actividad_completa,actividad
7254,2007-11-28,9,57,14,12000.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
3793,2007-12-19,14,42,74,9424.08,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
5022,2008-10-23,11,37,14,9000.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
135,2006-11-29,9,13,14,8000.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
3171,2006-12-26,15,41,61,6397.31,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
974,2007-11-30,13,6,72,6375.0,YUSTY,CONFECCION TEXTIL EN GENERAL,ROPA
5106,2006-08-13,12,16,11,6198.02,HOTEL BARROSA PARK,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",HOTEL
878,2006-08-13,17,24,59,5763.1,,BRITISH AIRWAYS - BRITISH A,AVION
5271,2005-07-31,15,35,50,5403.97,NAUTICA BAUTISTA,AUTOM.Y MOTOCICLETAS ( VENTAS Y REPARAC),COCHE
6076,2004-12-06,9,47,14,5390.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO


### Los 10 movimientos mas caros por actividad

In [24]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where actividad = 'HOGAR'
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,fecha,actividad_completa,importe
Miguel Ángel Araujo Serrano,2007-10-14,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",2150.0
Mariano Pérez Claver,2005-12-16,FLORES Y PLANTAS,1908.19
Domingo Navalmoral Sánchez,2004-01-09,"TAPICERIAS,ALFOMBRAS",1800.0
Ramón Ferraz Ricarte,2008-07-06,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1281.31
Miguel Ángel Araujo Serrano,2011-03-10,MUEBLES DE COCINA,1231.0
Francisco Baquero Noriega,2007-04-20,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1188.9
Francisco Baquero Noriega,2006-11-03,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1090.0
Jesús Pedroche Nieto,2011-05-24,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1000.0
Pedro Bugidos Garay,2006-02-07,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1000.0
Ricardo Romero de Tejada y Picatoste,2009-04-06,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",1000.0


### Los 10 movimientos mas caros

In [25]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,fecha,actividad_completa,importe
Enrique de la Torre Martínez,2007-11-28,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),12000.0
Ramón Ferraz Ricarte,2007-12-19,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),9424.08
Enrique de la Torre Martínez,2008-10-23,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),9000.0
Enrique de la Torre Martínez,2006-11-29,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),8000.0
Miguel Blesa de la Parra,2006-12-26,EL CORTE INGLES,6397.31
Rafael Spottorno Díaz Caro,2007-11-30,CONFECCION TEXTIL EN GENERAL,6375.0
Carmen Contreras Gómez,2006-08-13,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",6198.02
Matías Amat Roca,2006-08-13,BRITISH AIRWAYS - BRITISH A,5763.1
Juan Manuel Astorqui Portera,2005-07-31,AUTOM.Y MOTOCICLETAS ( VENTAS Y REPARAC),5403.97
Enrique de la Torre Martínez,2004-12-06,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),5390.0


### Los movimientos de una persona concreta (ordenados por importe)

In [26]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,fecha,actividad_completa,importe
Mariano Pérez Claver,2006-01-12,EL CORTE INGLES,2831.84
Mariano Pérez Claver,2004-11-03,AGENCIAS DE VIAJES,2805.26
Mariano Pérez Claver,2005-12-16,FLORES Y PLANTAS,1908.19
Mariano Pérez Claver,2005-07-13,"HOSPITALES,SANATORIOS Y CONSULTAS MEDIC",1863.0
Mariano Pérez Claver,2007-12-28,FLORES Y PLANTAS,950.4
Mariano Pérez Claver,2003-01-13,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",775.0
Mariano Pérez Claver,2006-09-01,CONFECCION TEXTIL EN GENERAL,694.0
Mariano Pérez Claver,2003-07-28,EL CORTE INGLES,621.0
Mariano Pérez Claver,2010-05-14,CAJEROS AUTOMATICOS,600.0
Mariano Pérez Claver,2008-07-11,CAJEROS AUTOMATICOS,600.0


### Las 10 personas que mas han gastado

In [27]:
%%sql 
select nombre, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,importe
Enrique de la Torre Martínez,58826.28
José Antonio Moral Santín,52447.07
Ramón Ferraz Ricarte,45371.52
Miguel Blesa de la Parra,40298.84
Ildefonso José Sánchez Barcoj,39437.99
Juan Manuel Astorqui Portera,36627.89
Francisco Baquero Noriega,35256.67
Matías Amat Roca,33434.74
Carmen Contreras Gómez,31556.45
Estanislao Rodríguez-Ponga Salamanca,29350.65


### Importes de una persona agrupados por actividad

In [28]:
%%sql
select nombre, actividad, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
group by 1,2
order by 3 desc

 * postgresql://postgres:***@localhost/black
18 rows affected.


nombre,actividad,importe
Mariano Pérez Claver,COMPRA BIENES,5344.36
Mariano Pérez Claver,HOGAR,3633.59
Mariano Pérez Claver,RESTAURANTE,3573.79
Mariano Pérez Claver,VIAJE,3013.95
Mariano Pérez Claver,CA$H,2400.0
Mariano Pérez Claver,HOTEL,2020.11
Mariano Pérez Claver,SALUD,1863.0
Mariano Pérez Claver,ROPA,1147.34
Mariano Pérez Claver,COCHE,1056.19
Mariano Pérez Claver,REGALOS,850.0


### ¿Quién se gasta más, los concejales o los directivos?

In [29]:
%%sql
select funcion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc

 * postgresql://postgres:***@localhost/black
2 rows affected.


funcion,importe
concejal,706991.27
directivo,443740.82


### ¿Qué organización se gasta más?

In [30]:
%%sql
select organizacion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where organizacion is not null
group by 1
order by 2 desc

 * postgresql://postgres:***@localhost/black
10 rows affected.


organizacion,importe
Partido Popular,281008.13
PSOE,147128.03
Izquierda Unida,89149.22
CC OO,86368.54
UGT,35198.35
Conf. de Cuadros,21821.12
CEIM,13127.54
Comisión de Control,12384.31
CEOE,11650.0
Patronal (Unipyme),9156.03


### ¿Qué comercio es más popular entre los miembros?

In [31]:
%%sql
select comercio, count(distinct mov.id_miembro) as numero_miembros
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where comercio is not null
group by 1
order by 2 desc
limit 5

 * postgresql://postgres:***@localhost/black
5 rows affected.


comercio,numero_miembros
EL CORTE INGLES,49
IBERIA,29
RENFE 001,28
EL CORTE INGLES S.A.,26
PARKING EGUISA C/SEVILLA,16
