# PostgreSQL

## Borrado de datos

In [1]:
!dropdb black

In [2]:
!createdb black

In [3]:
%load_ext sql

In [4]:
%sql postgresql://postgres:postgres@localhost/black


'Connected: postgres@black'

# Carga de datos en Pandas

Partimos de los datos normalizados en fichero Excel. Leemos cada hoja del fichero Excel en un DataFrame de Pandas distinto

In [5]:
import pandas as pd

In [6]:
df_mov = pd.read_excel("../../data/black.xlsx", sheet_name= "Movimientos")
df_miembros = pd.read_excel("../../data/black.xlsx", sheet_name= "Miembros")

Se realiza una pequeña comprobación para verificar que no hay datos duplicados

In [7]:
df_mov.head(5)

Unnamed: 0,id_miembro,fecha,hora,minuto,importe,comercio,actividad_completa,actividad
0,6,2007-03-21,15,26,3.2,PARKING EGUISA C/SEVILLA,GARAJES Y APARCAMIENTOS,COCHE
1,83,2007-07-02,16,4,59.0,EL CORTE INGLES S.A.,EL CORTE INGLES,COMPRA BIENES
2,1,2007-11-11,17,39,22.72,,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",HOTEL
3,77,2010-01-27,11,2,85.0,A ROMERO,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",HOGAR
4,77,2008-04-08,19,8,35.75,FCIA.FERNANDEZ ALFONSO,FARMACIAS,SALUD


In [8]:
(df_mov.groupby(['fecha', 'id_miembro', 'hora', 'minuto', 'comercio', 'importe']).size() > 1).sum()

0

In [9]:
df_mov.query('id_miembro == 6 and hora == 15 and minuto == 26')

Unnamed: 0,id_miembro,fecha,hora,minuto,importe,comercio,actividad_completa,actividad
0,6,2007-03-21,15,26,3.2,PARKING EGUISA C/SEVILLA,GARAJES Y APARCAMIENTOS,COCHE


Perfecto ;-)

## Creacción de tablas

Para almacenar la información se van a crear 2 tablas, una con movimientos y otra con los miembros de la organización que han realizado el movimiento.  
Las 2 tablas están relacionadas por el campo id_miembro (se llama igual en ambas tablas)

Adicionalmente se va a utilizar una secuencia que nos va a permitir tener una PK única para la tabla de movimientos


<br><br> 

<img src="images/Modelo_PostgreSQL.png" width="400" height="300">


<br><br>

La siguiente instrucción fallará la primera vez que se ejecuta!

In [10]:
%sql DROP TABLE movimientos
%sql DROP TABLE miembros
%sql DROP SEQUENCE seq_mov_id;

 * postgresql://postgres:***@localhost/black
(psycopg2.errors.UndefinedTable) table "movimientos" does not exist

[SQL: DROP TABLE movimientos]
(Background on this error at: http://sqlalche.me/e/f405)
 * postgresql://postgres:***@localhost/black
(psycopg2.errors.UndefinedTable) table "miembros" does not exist

[SQL: DROP TABLE miembros]
(Background on this error at: http://sqlalche.me/e/f405)
 * postgresql://postgres:***@localhost/black
(psycopg2.errors.UndefinedTable) sequence "seq_mov_id" does not exist

[SQL: DROP SEQUENCE seq_mov_id;]
(Background on this error at: http://sqlalche.me/e/f405)


In [11]:
%sql CREATE SEQUENCE seq_mov_id;

 * postgresql://postgres:***@localhost/black
Done.


[]

In [12]:
%%sql 
CREATE TABLE miembros (
    id_miembro      int not null PRIMARY KEY,
    nombre         varchar(200),
    funcion        varchar(40),
    organizacion   varchar(200),
    CONSTRAINT pk_miembros UNIQUE(id_miembro)
);

 * postgresql://postgres:***@localhost/black
Done.


[]

In [13]:
%%sql 
CREATE TABLE movimientos (
    id_movimiento   int not null default nextval('seq_mov_id'),
    fecha           date not null,
    hora            int not null,
    minuto          int not null,
    id_miembro      int not null REFERENCES miembros(id_miembro),
    importe         decimal not null,
    comercio        varchar(200),
    actividad_completa varchar(200),
    actividad       varchar(100),
    CONSTRAINT pk_movimientos UNIQUE(id_movimiento)
);

 * postgresql://postgres:***@localhost/black
Done.


[]

## Exportación de los datos a PostgreSQL

Para exportar los datos a la base de datos, vamos a aprovechar una funcionalidad que nos ofrece Pandas, de exportación de datos a una base de datos relacional.

En este caso hemos creado el esquema previamente, pero podríamos no haberlo hecho (parámetro **if_exists**)

In [14]:
from sqlalchemy import create_engine

In [15]:
engine = create_engine('postgresql://postgres:postgres@localhost:5432/black')

In [16]:
df_miembros.head(10)

Unnamed: 0,id_miembro,nombre,funcion,organizacion
0,1,Alberto Recarte García Andrade,concejal,Partido Popular
1,2,Alejandro Couceiro Ojeda,concejal,CEIM
2,83,Ángel Eugenio Gómez del Pulgar Perales,concejal,PSOE
3,3,Angel Rizaldos González,concejal,Izquierda Unida
4,4,Antonio Cámara Eguinoa,concejal,Partido Popular
5,5,Antonio Rey de Viñas Sánchez-Majestad,concejal,CC OO
6,6,Antonio Romero Lázaro,concejal,PSOE
7,7,Arturo Luis Fernández Álvarez,concejal,CEIM
8,8,Beltrán Gutiérrez Moliner,concejal,Partido Popular
9,12,Cándido Cerón Escudero,concejal,Partido Popular


In [17]:
df_miembros.to_sql('miembros', engine, if_exists = 'append', index = False)

In [18]:
df_mov.to_sql('movimientos', engine, if_exists = 'append', index = False)

Fijate que las columnas en Pandas y en la tabla tienen que ser exactamente las mismas y llamarse igual!

PostgreSQL pone automáticamente el nombre de las columnas en minúscula a no ser que cuando crees la tabla pogas el nombre de las columnas entrecomillado.

# Consultando información

Hacemos unas querys previas para vericar que todo ha ido bien

In [19]:
%%sql
select count(*)
from movimientos

 * postgresql://postgres:***@localhost/black
1 rows affected.


count
7624


In [20]:
%%sql
select count(*)
from miembros

 * postgresql://postgres:***@localhost/black
1 rows affected.


count
83


In [21]:
%%sql
select count(distinct comercio || actividad || actividad_completa)
from movimientos
where comercio is not null

 * postgresql://postgres:***@localhost/black
1 rows affected.


count
3208


In [22]:
%%sql
select *
from movimientos
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


id_movimiento,fecha,hora,minuto,id_miembro,importe,comercio,actividad_completa,actividad
5624,2009-12-30,2,40,28,16921.75,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
7244,2006-04-04,16,51,61,12597.26,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
2188,2003-04-03,17,56,74,5998.35,"VIAJES HESPERIA, S.A.",AGENCIAS DE VIAJES,VIAJE
607,2009-08-23,15,41,74,5909.29,,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",HOTEL
4341,2010-12-20,16,52,15,4985.0,EL CORTE INGLES,HIPERCOR SUPERMERCADOS EL CORTE INGLES,SUPERMERCADO
4967,2006-08-02,17,53,59,4972.0,ECO VIAJES,AGENCIAS DE VIAJES,VIAJE
5577,2010-10-07,15,39,56,4336.0,,AGENCIAS DE VIAJES,VIAJE
3415,2010-03-25,20,10,28,4320.5,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
5695,2008-12-19,18,1,11,4218.0,SUAREZ JOYEROS,JOYERIAS Y RELOJERIAS,COMPRA BIENES LUJO
4410,2007-02-11,15,24,11,4175.87,AIR EUROPA LINEAS AEREAS,AIR EUROPA,AVION


### Los 10 movimientos mas caros por actividad

In [23]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where actividad = 'HOGAR'
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,fecha,actividad_completa,importe
Jesús Pedroche Nieto,2009-07-05,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",3512.0
Jesús Pedroche Nieto,2011-10-20,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",3061.0
Francisco Baquero Noriega,2008-05-15,FLORES Y PLANTAS,2764.19
Mariano Pérez Claver,2006-06-30,IKEA,1217.94
Jesús Pedroche Nieto,2009-01-02,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1000.41
Jesús Pedroche Nieto,2011-08-22,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",945.82
Maria Mercedes de la Merced Monge,2006-09-12,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",843.25
Ildefonso José Sánchez Barcoj,2011-04-02,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",760.0
Alejandro Couceiro Ojeda,2006-07-04,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",620.0
Enrique de la Torre Martínez,2007-04-11,"MATERIALES CONSTRUCCION,FONTANERIA,SANEA",575.9


### Los 10 movimientos mas caros

In [24]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,fecha,actividad_completa,importe
Ildefonso José Sánchez Barcoj,2009-12-30,EL CORTE INGLES,16921.75
Miguel Blesa de la Parra,2006-04-04,EL CORTE INGLES,12597.26
Ramón Ferraz Ricarte,2003-04-03,AGENCIAS DE VIAJES,5998.35
Ramón Ferraz Ricarte,2009-08-23,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",5909.29
Estanislao Rodríguez-Ponga Salamanca,2010-12-20,HIPERCOR SUPERMERCADOS EL CORTE INGLES,4985.0
Matías Amat Roca,2006-08-02,AGENCIAS DE VIAJES,4972.0
María Carmen Cafranga Cavestany,2010-10-07,AGENCIAS DE VIAJES,4336.0
Ildefonso José Sánchez Barcoj,2010-03-25,EL CORTE INGLES,4320.5
Carmen Contreras Gómez,2008-12-19,JOYERIAS Y RELOJERIAS,4218.0
Carmen Contreras Gómez,2007-02-11,AIR EUROPA,4175.87


### Los movimientos de una persona concreta (ordenados por importe)

In [25]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
order by importe desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,fecha,actividad_completa,importe
Mariano Pérez Claver,2006-01-12,EL CORTE INGLES,2831.84
Mariano Pérez Claver,2004-11-03,AGENCIAS DE VIAJES,2805.26
Mariano Pérez Claver,2007-03-29,AGENCIAS DE VIAJES,2073.0
Mariano Pérez Claver,2006-03-03,CONFECCION TEXTIL EN GENERAL,1519.0
Mariano Pérez Claver,2010-07-30,EL CORTE INGLES,1270.0
Mariano Pérez Claver,2006-06-30,IKEA,1217.94
Mariano Pérez Claver,2006-01-12,EL CORTE INGLES,899.0
Mariano Pérez Claver,2007-09-05,"HOSPITALES,SANATORIOS Y CONSULTAS MEDIC",819.5
Mariano Pérez Claver,2004-08-30,GRAN ALMACEN (A),744.0
Mariano Pérez Claver,2003-07-28,EL CORTE INGLES,621.0


### Las 10 personas que mas han gastado

In [26]:
%%sql 
select nombre, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc
limit 10

 * postgresql://postgres:***@localhost/black
10 rows affected.


nombre,importe
Ildefonso José Sánchez Barcoj,71331.33
Miguel Blesa de la Parra,60325.29
Ricardo Morado Iglesias,46435.74
José Antonio Moral Santín,45026.71
Ramón Ferraz Ricarte,44438.94
Matías Amat Roca,42663.76
Mariano Pérez Claver,32121.01
Francisco Baquero Noriega,31558.7
Carmen Contreras Gómez,30159.02
Antonio Romero Lázaro,27954.38


### Importes de una persona agrupados por actividad

In [27]:
%%sql
select nombre, actividad, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
group by 1,2
order by 3 desc

 * postgresql://postgres:***@localhost/black
17 rows affected.


nombre,actividad,importe
Mariano Pérez Claver,CA$H,7700.0
Mariano Pérez Claver,COMPRA BIENES,6977.81
Mariano Pérez Claver,VIAJE,5009.67
Mariano Pérez Claver,RESTAURANTE,3285.68
Mariano Pérez Claver,ROPA,1621.09
Mariano Pérez Claver,HOGAR,1586.5
Mariano Pérez Claver,HOTEL,1498.43
Mariano Pérez Claver,SALUD,1179.5
Mariano Pérez Claver,COCHE,1085.57
Mariano Pérez Claver,SUPERMERCADO,878.68


### ¿Quién se gasta más, los concejales o los directivos?

In [28]:
%%sql
select funcion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc

 * postgresql://postgres:***@localhost/black
2 rows affected.


funcion,importe
concejal,707326.06
directivo,472041.32


### ¿Qué organización se gasta más?

In [29]:
%%sql
select organizacion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where organizacion is not null
group by 1
order by 2 desc

 * postgresql://postgres:***@localhost/black
10 rows affected.


organizacion,importe
Partido Popular,299704.0
PSOE,142734.21
Izquierda Unida,83894.49
CC OO,83349.83
UGT,35325.87
Conf. de Cuadros,20879.73
Patronal (Unipyme),16349.68
CEIM,10079.91
Comisión de Control,9719.84
CEOE,5288.5


### ¿Qué comercio es más popular entre los miembros?

In [30]:
%%sql
select comercio, count(distinct mov.id_miembro) as numero_miembros
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where comercio is not null
group by 1
order by 2 desc
limit 5

 * postgresql://postgres:***@localhost/black
5 rows affected.


comercio,numero_miembros
EL CORTE INGLES,52
IBERIA,25
EL CORTE INGLES S.A.,23
RENFE 001,22
VIAJES ECI,17
