# PostgreSQL

## Borrado de datos

In [1]:
!dropdb black

In [2]:
!createdb black

In [3]:
%load_ext sql

In [4]:
%sql postgresql://postgres:postgres@localhost/black


'Connected: postgres@black'

# Carga de datos en Pandas

Partimos de los datos normalizados en fichero Excel. Leemos cada hoja del fichero Excel en un DataFrame de Pandas distinto

In [5]:
import pandas as pd

In [12]:
df_mov = pd.read_excel("../../data/black.xlsx", sheet_name= "Movimientos")
df_miembros = pd.read_excel("../../data/black.xlsx", sheet_name= "Miembros")

Se realiza una pequeña comprobación para verificar que no hay datos duplicados

In [13]:
df_mov.head(5)

Unnamed: 0,id_miembro,fecha,minuto,hora,importe,comercio,actividad_completa,actividad
0,12,2008-12-28,18,16,37.7,BEISALFLOR,RESTAURANTES RESTO,RESTAURANTE
1,23,2006-01-31,52,16,27.61,TIO PEPE VAGUADA,VIPS,MISC
2,9,2010-06-23,37,23,132.63,"BOCADO MADRID, S.L.",RESTAURANTES RESTO,RESTAURANTE
3,61,2007-11-28,36,16,119.19,CRIALCOBA SL,RESTAURANTES RESTO,RESTAURANTE
4,73,2007-11-28,19,20,21.43,JAMONES Y FIAMBRES,"SUPERMERCADOS,ULTRAMARINOS, ECONOMATOS",SUPERMERCADO


In [14]:
df_mov.groupby(['fecha', 'id_miembro', 'hora', 'minuto', 'comercio', 'importe']).count().query('actividad > 1').head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,actividad_completa,actividad
fecha,id_miembro,hora,minuto,comercio,importe,Unnamed: 6_level_1,Unnamed: 7_level_1


In [15]:
df_mov.query('id_miembro == 70 and hora == 15 and minuto == 47')

Unnamed: 0,id_miembro,fecha,minuto,hora,importe,comercio,actividad_completa,actividad


Perfecto ;-)

## Creacción de tablas

Para almacenar la información se van a crear 2 tablas, una con movimientos y otra con los miembros de la organización que han realizado el movimiento.  
Las 2 tablas están relacionadas por el campo id_miembro (se llama igual en ambas tablas)

Adicionalmente se va a utilizar una secuencia que nos va a permitir tener una PK única para la tabla de movimientos


<br><br> 

<img src="images/Modelo_PostgreSQL.png" width="400" height="300">


<br><br>

In [16]:
%sql DROP TABLE movimientos
%sql DROP TABLE miembros
%sql DROP SEQUENCE seq_mov_id;

 * postgresql://postgres:***@localhost/black
(psycopg2.errors.UndefinedTable) table "movimientos" does not exist

[SQL: DROP TABLE movimientos]
(Background on this error at: http://sqlalche.me/e/f405)
 * postgresql://postgres:***@localhost/black
(psycopg2.errors.UndefinedTable) table "miembros" does not exist

[SQL: DROP TABLE miembros]
(Background on this error at: http://sqlalche.me/e/f405)
 * postgresql://postgres:***@localhost/black
(psycopg2.errors.UndefinedTable) sequence "seq_mov_id" does not exist

[SQL: DROP SEQUENCE seq_mov_id;]
(Background on this error at: http://sqlalche.me/e/f405)


In [17]:
%sql CREATE SEQUENCE seq_mov_id;

 * postgresql://postgres:***@localhost/black
Done.


[]

In [18]:
%%sql 
CREATE TABLE miembros (
    id_miembro      int not null PRIMARY KEY,
    nombre         varchar(200),
    funcion        varchar(40),
    organizacion   varchar(200),
    CONSTRAINT pk_miembros UNIQUE(id_miembro)
);

 * postgresql://postgres:***@localhost/black
Done.


[]

In [19]:
%%sql 
CREATE TABLE movimientos (
    id_movimiento   int not null default nextval('seq_mov_id'),
    fecha           date not null,
    hora            int not null,
    minuto          int not null,
    id_miembro      int not null REFERENCES miembros(id_miembro),
    importe         decimal not null,
    comercio        varchar(200),
    actividad_completa varchar(200),
    actividad       varchar(100),
    CONSTRAINT pk_movimientos UNIQUE(id_movimiento)
);

 * postgresql://postgres:***@localhost/black
Done.


[]

## Exportación de los datos a PostgreSQL

Para exportar los datos a la base de datos, vamos a aprovechar una funcionalidad que nos ofrece Pandas, de exportación de datos a una base de datos relacional.

En este caso hemos creado el esquema previamente, pero podríamos no haberlo hecho (parámetro **if_exists**)

In [20]:
from sqlalchemy import create_engine

In [21]:
engine = create_engine('postgresql://postgres:postgres@localhost:5432/black')

In [22]:
df_miembros.head(10)

Unnamed: 0,id_miembro,nombre,funcion,organizacion
0,1,Alberto Recarte García Andrade,concejal,Partido Popular
1,2,Alejandro Couceiro Ojeda,concejal,CEIM
2,83,Ángel Eugenio Gómez del Pulgar Perales,concejal,PSOE
3,3,Angel Rizaldos González,concejal,Izquierda Unida
4,4,Antonio Cámara Eguinoa,concejal,Partido Popular
5,5,Antonio Rey de Viñas Sánchez-Majestad,concejal,CC OO
6,6,Antonio Romero Lázaro,concejal,PSOE
7,7,Arturo Luis Fernández Álvarez,concejal,CEIM
8,8,Beltrán Gutiérrez Moliner,concejal,Partido Popular
9,12,Cándido Cerón Escudero,concejal,Partido Popular


In [23]:
df_miembros.to_sql('miembros', engine, if_exists = 'append', index = False)

In [24]:
df_mov.to_sql('movimientos', engine, if_exists = 'append', index = False)

Fijate que las columnas en Pandas y en la tabla tienen que ser exactamente las mismas y llamarse igual!

PostgreSQL pone automáticamente el nombre de las columnas en minúscula a no ser que cuando crees la tabla pogas el nombre de las columnas entrecomillado.

# Consultando información

Hacemos unas querys previas para vericar que todo ha ido bien

In [25]:
%%sql
select count(*)
from movimientos

 * postgresql://postgres:***@localhost/black
1 rows affected.


count
7624


In [26]:
%%sql
select count(*)
from miembros

 * postgresql://postgres:***@localhost/black
1 rows affected.


count
83


In [27]:
%%sql
select count(distinct comercio || actividad || actividad_completa)
from movimientos
where comercio is not null

 * postgresql://postgres:***@localhost/black
1 rows affected.


count
3177


In [28]:
%%sql
select *
from movimientos
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


id_movimiento,fecha,hora,minuto,id_miembro,importe,comercio,actividad_completa,actividad
6454,2010-08-15,10,42,11,9076.76,HOTEL BARROSA PARK,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",HOTEL
3176,2010-05-19,10,0,28,7500.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
5170,2008-11-19,15,48,28,6593.2,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
4122,2006-12-26,15,41,61,6397.31,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
5563,2005-11-27,15,2,74,6248.0,EL CORTE INGLES,EL CORTE INGLES,COMPRA BIENES
28,2008-01-04,15,28,74,6160.81,,HYATT HOTELS,HOTEL
1568,2005-08-15,10,55,11,6102.68,HOTEL BARROSA PARK,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",HOTEL
68,2004-10-18,14,4,55,6000.0,MILLAN TRAVEL SA,AGENCIAS DE VIAJES,VIAJE
4655,2008-12-26,16,48,15,5500.0,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
1736,2011-02-14,16,57,56,5500.0,"ICE TRAVEL SPAIN, S.L.",V.DIST.VIAJES Y TRANSPORTE DE VIAJEROS,VIAJE


### Los 10 movimientos mas caros por actividad

In [29]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where actividad = 'HOGAR'
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,fecha,actividad_completa,importe
Mariano Pérez Claver,2007-05-11,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",2074.23
Mariano Pérez Claver,2003-04-11,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",2072.0
Carlos María Martínez Martínez,2007-05-01,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1510.0
Rafael Spottorno Díaz Caro,2003-08-10,MIRO ESTABLECIMIENTOS,1198.0
Francisco Baquero Noriega,2006-11-03,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1090.0
Jesús Pedroche Nieto,2009-01-02,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1000.41
Pedro Bugidos Garay,2006-02-07,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1000.0
Mariano Pérez Claver,2007-12-28,FLORES Y PLANTAS,950.4
Alejandro Couceiro Ojeda,2003-01-04,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",923.0
María Carmen Cafranga Cavestany,2006-07-31,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",850.0


### Los 10 movimientos mas caros

In [30]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,fecha,actividad_completa,importe
Carmen Contreras Gómez,2010-08-15,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",9076.76
Ildefonso José Sánchez Barcoj,2010-05-19,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),7500.0
Ildefonso José Sánchez Barcoj,2008-11-19,EL CORTE INGLES,6593.2
Miguel Blesa de la Parra,2006-12-26,EL CORTE INGLES,6397.31
Ramón Ferraz Ricarte,2005-11-27,EL CORTE INGLES,6248.0
Ramón Ferraz Ricarte,2008-01-04,HYATT HOTELS,6160.81
Carmen Contreras Gómez,2005-08-15,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",6102.68
Mariano Pérez Claver,2004-10-18,AGENCIAS DE VIAJES,6000.0
Estanislao Rodríguez-Ponga Salamanca,2008-12-26,EL CORTE INGLES,5500.0
María Carmen Cafranga Cavestany,2011-02-14,V.DIST.VIAJES Y TRANSPORTE DE VIAJEROS,5500.0


### Los movimientos de una persona concreta (ordenados por importe)

In [31]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,fecha,actividad_completa,importe
Mariano Pérez Claver,2004-10-18,AGENCIAS DE VIAJES,6000.0
Mariano Pérez Claver,2010-05-19,"HOSPITALES,SANATORIOS Y CONSULTAS MEDIC",2453.0
Mariano Pérez Claver,2007-05-11,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",2074.23
Mariano Pérez Claver,2003-04-11,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",2072.0
Mariano Pérez Claver,2006-08-08,TRANSPORTE VIAJEROS ( VIA MARITIMA ),1909.69
Mariano Pérez Claver,2005-12-12,ACCESORIOS Y REPUESTOS DE COCHES Y MAQUI,1258.0
Mariano Pérez Claver,2008-06-27,HIPERCOR SUPERMERCADOS EL CORTE INGLES,1116.0
Mariano Pérez Claver,2007-12-28,FLORES Y PLANTAS,950.4
Mariano Pérez Claver,2006-01-12,EL CORTE INGLES,879.0
Mariano Pérez Claver,2007-09-05,"HOSPITALES,SANATORIOS Y CONSULTAS MEDIC",819.5


### Las 10 personas que mas han gastado

In [32]:
%%sql 
select nombre, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,importe
Ramón Ferraz Ricarte,46482.54
Ildefonso José Sánchez Barcoj,46114.81
Ricardo Morado Iglesias,45854.87
José Antonio Moral Santín,42184.51
Miguel Blesa de la Parra,38297.77
Matías Amat Roca,35410.06
Carmen Contreras Gómez,33905.54
Maria Mercedes de la Merced Monge,33132.16
Mariano Pérez Claver,32960.68
Estanislao Rodríguez-Ponga Salamanca,30853.74


### Importes de una persona agrupados por actividad

In [33]:
%%sql
select nombre, actividad, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
group by 1,2
order by 3 desc

 * postgresql://postgres:***@localhost/black
15 rows affected.


nombre,actividad,importe
Mariano Pérez Claver,CA$H,10222.17
Mariano Pérez Claver,HOGAR,5548.23
Mariano Pérez Claver,SALUD,3749.5
Mariano Pérez Claver,RESTAURANTE,2659.54
Mariano Pérez Claver,SUPERMERCADO,2231.46
Mariano Pérez Claver,COCHE,2124.28
Mariano Pérez Claver,COMPRA BIENES,1921.21
Mariano Pérez Claver,BARCO,1909.69
Mariano Pérez Claver,HOTEL,1491.21
Mariano Pérez Claver,TREN,1042.49


### ¿Quién se gasta más, los concejales o los directivos?

In [34]:
%%sql
select funcion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc

 * postgresql://postgres:***@localhost/black
2 rows affected.


funcion,importe
concejal,714885.89
directivo,427819.04


### ¿Qué organización se gasta más?

In [35]:
%%sql
select organizacion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where organizacion is not null
group by 1
order by 2 desc

 * postgresql://postgres:***@localhost/black
10 rows affected.


organizacion,importe
Partido Popular,294842.43
PSOE,156353.14
Izquierda Unida,80739.59
CC OO,72504.22
UGT,36818.72
Conf. de Cuadros,20991.45
CEIM,20016.4
Patronal (Unipyme),15856.39
Comisión de Control,9063.55
CEOE,7700.0


### ¿Qué comercio es más popular entre los miembros?

In [36]:
%%sql
select comercio, count(distinct mov.id_miembro) as numero_miembros
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where comercio is not null
group by 1
order by 2 desc
limit 5

 * postgresql://postgres:***@localhost/black
5 rows affected.


comercio,numero_miembros
EL CORTE INGLES,52
IBERIA,23
RENFE 001,23
EL CORTE INGLES S.A.,23
VIAJES ECI,19
