# PostgreSQL

## Borrado de datos

In [1]:
!echo 'learner' | sudo -S -u postgres dropdb black


[sudo] password for learner: 

In [2]:
!echo 'learner' | sudo -S -u postgres createdb black -O learner

[sudo] password for learner: 

In [3]:
%load_ext sql

In [4]:
%sql postgresql://learner:learner@localhost/black


u'Connected: learner@black'

# Carga de datos en Pandas

Partimos de los datos normalizados en fichero Excel. Leemos cada hoja del fichero Excel en un DataFrame de Pandas distinto

In [5]:
import pandas as pd

In [6]:
df_mov = pd.read_excel("../../data/black.xlsx", sheetname= "Movimientos")
df_miembros = pd.read_excel("../../data/black.xlsx", sheetname= "Miembros")

Se realiza una pequeña comprobación para verificar que no hay datos duplicados

In [7]:
df_mov.groupby(['fecha', 'id_miembro', 'hora', 'minuto', 'comercio', 'importe']).count().query('actividad > 1').head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,actividad_completa,actividad
fecha,id_miembro,hora,minuto,comercio,importe,Unnamed: 6_level_1,Unnamed: 7_level_1


In [8]:
df_mov.query('id_miembro == 70 and hora == 15 and minuto == 47')

Unnamed: 0,id_miembro,fecha,minuto,hora,importe,comercio,actividad_completa,actividad


Perfecto ;-)

## Creacción de tablas

Para almacenar la información se van a crear 2 tablas, una con movimientos y otra con los miembros de la organización que han realizado el movimiento.  
Las 2 tablas están relacionadas por el campo id_miembro (se llama igual en ambas tablas)

Adicionalmente se va a utilizar una secuencia que nos va a permitir tener una PK única para la tabla de movimientos


<br><br> 

<img src="images/Modelo%20PostgreSQL.png",width=400,height=300>


<br><br>

In [9]:
%sql DROP TABLE movimientos
%sql DROP TABLE miembros
%sql DROP SEQUENCE seq_mov_id;

(psycopg2.ProgrammingError) table "movimientos" does not exist
 [SQL: 'DROP TABLE movimientos']
(psycopg2.ProgrammingError) table "miembros" does not exist
 [SQL: 'DROP TABLE miembros']
(psycopg2.ProgrammingError) sequence "seq_mov_id" does not exist
 [SQL: 'DROP SEQUENCE seq_mov_id;']


In [10]:
%sql CREATE SEQUENCE seq_mov_id;

Done.


[]

In [11]:
%%sql 
CREATE TABLE miembros (
    id_miembro      int not null PRIMARY KEY,
    nombre         varchar(200),
    funcion        varchar(40),
    organizacion   varchar(200),
    CONSTRAINT pk_miembros UNIQUE(id_miembro)
);

Done.


[]

In [12]:
%%sql 
CREATE TABLE movimientos (
    id_movimiento   int not null default nextval('seq_mov_id'),
    fecha           date not null,
    hora            int not null,
    minuto          int not null,
    id_miembro      int not null REFERENCES miembros(id_miembro),
    importe         decimal not null,
    comercio        varchar(200),
    actividad_completa varchar(200),
    actividad       varchar(100),
    CONSTRAINT pk_movimientos UNIQUE(id_movimiento)
);

Done.


[]

## Exportación de los datos a PostgreSQL

Para exportar los datos a la base de datos, vamos a aprovechar una funcionalidad que nos ofrece Pandas, de exportación de datos a una base de datos relacional.

En este caso hemos creado el esquema previamente, pero podríamos no haberlo hecho (parámetro **if_exists**)

In [13]:
from sqlalchemy import create_engine

In [14]:
engine = create_engine('postgresql://learner:learner@localhost:5432/black')

In [15]:
df_miembros.to_sql('miembros', engine, if_exists = 'append', index = False)

In [16]:
df_mov.to_sql('movimientos', engine, if_exists = 'append', index = False)

# Consultando información

Hacemos unas querys previas para vericar que todo ha ido bien

In [17]:
%%sql
select count(*)
from movimientos

1 rows affected.


count
7624


In [18]:
%%sql
select count(*)
from miembros

1 rows affected.


count
83


In [19]:
%%sql
select *
from movimientos
order by importe desc
limit 10

10 rows affected.


id_movimiento,fecha,hora,minuto,id_miembro,importe,comercio,actividad_completa,actividad
4154,2007-11-25,10,59,77,11930.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
6094,2006-11-01,12,22,10,9825.0,VIAJES MARSANS,VIAJES MARSANS-INTERNACIONAL EXPRESSO,VIAJE
6674,2009-03-30,16,16,28,9804.15,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
633,2010-08-15,10,42,11,9076.76,HOTEL BARROSA PARK,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",HOTEL
556,2006-11-29,9,13,14,8000.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
6625,2005-07-19,9,32,28,7200.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
393,2007-08-02,17,4,61,6990.87,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
3779,2004-03-30,15,36,57,6905.72,,JOYERIAS Y RELOJERIAS,COMPRA BIENES LUJO
2169,2003-08-28,15,35,57,6000.0,JOYERIA SUAREZ,JOYERIAS Y RELOJERIAS,COMPRA BIENES LUJO
4851,2005-11-24,9,15,14,6000.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO


### Los 10 movimientos mas caros por actividad

In [20]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where actividad = 'HOGAR'
order by importe desc
limit 10

10 rows affected.


nombre,fecha,actividad_completa,importe
Jesús Pedroche Nieto,2009-05-07,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",3794.0
Jesús Pedroche Nieto,2009-07-05,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",3512.0
Rodrigo de Rato Figaredo,2010-02-05,"FERRETERIA,BRICOLAJE,MENAJE DEL HOGAR",1392.03
Rafael Spottorno Díaz Caro,2003-08-10,MIRO ESTABLECIMIENTOS,1198.0
Jesús Pedroche Nieto,2009-01-02,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1000.41
Alejandro Couceiro Ojeda,2005-07-04,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",998.0
Mariano Pérez Claver,2007-03-16,FLORES Y PLANTAS,864.29
María Carmen Cafranga Cavestany,2006-07-31,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",850.0
Alejandro Couceiro Ojeda,2005-06-15,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",850.0
Rafael Darío Fernández Yruegas Moro,2006-06-15,"FERRETERIA,BRICOLAJE,MENAJE DEL HOGAR",660.0


### Los 10 movimientos mas caros

In [21]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
order by importe desc
limit 10

10 rows affected.


nombre,fecha,actividad_completa,importe
Ricardo Romero de Tejada y Picatoste,2007-11-25,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),11930.0
Carlos Vela García,2006-11-01,VIAJES MARSANS-INTERNACIONAL EXPRESSO,9825.0
Ildefonso José Sánchez Barcoj,2009-03-30,EL CORTE INGLES,9804.15
Carmen Contreras Gómez,2010-08-15,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",9076.76
Enrique de la Torre Martínez,2006-11-29,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),8000.0
Ildefonso José Sánchez Barcoj,2005-07-19,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),7200.0
Miguel Blesa de la Parra,2007-08-02,EL CORTE INGLES,6990.87
María Elena Gil García,2004-03-30,JOYERIAS Y RELOJERIAS,6905.72
María Elena Gil García,2003-08-28,JOYERIAS Y RELOJERIAS,6000.0
Enrique de la Torre Martínez,2005-11-24,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),6000.0


### Los movimientos de una persona concreta (ordenados por importe)

In [22]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Javier de Miguel Sánchez'
order by importe desc
limit 10

10 rows affected.


nombre,fecha,actividad_completa,importe
Javier de Miguel Sánchez,2008-06-12,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",572.0
Javier de Miguel Sánchez,2006-05-01,"HOTELES,MOTELES,BALNEARIOS,CAMPINGS REST",571.65
Javier de Miguel Sánchez,2003-09-30,AUTOM.Y MOTOCICLETAS ( VENTAS Y REPARAC),417.88
Javier de Miguel Sánchez,2010-01-12,"MATERIALES CONSTRUCCION,FONTANERIA,SANEA",383.0
Javier de Miguel Sánchez,2006-12-08,EL CORTE INGLES,304.66
Javier de Miguel Sánchez,2008-03-16,"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",287.07
Javier de Miguel Sánchez,2009-06-19,HIPERCOR SUPERMERCADOS EL CORTE INGLES,283.0
Javier de Miguel Sánchez,2009-12-22,"MATERIALES CONSTRUCCION,FONTANERIA,SANEA",272.85
Javier de Miguel Sánchez,2003-08-13,"HOTELES,MOTELES,BALNEARIOS,CAMPINGS REST",268.0
Javier de Miguel Sánchez,2009-08-16,PARADORES NACIONALES,250.38


### Las 10 personas que mas han gastado

In [23]:
%%sql 
select nombre, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc
limit 10

10 rows affected.


nombre,importe
Ildefonso José Sánchez Barcoj,66444.15
José Antonio Moral Santín,40356.29
Carlos Vela García,37639.57
Miguel Blesa de la Parra,37608.99
Enrique de la Torre Martínez,37472.01
Matías Amat Roca,36590.68
Maria Mercedes de la Merced Monge,36086.89
Ricardo Romero de Tejada y Picatoste,35901.41
Ricardo Morado Iglesias,35574.91
Ramón Ferraz Ricarte,35136.97


### Importes de una persona agrupados por actividad

In [29]:
%%sql
select nombre, actividad, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
group by 1,2
order by 3 desc

15 rows affected.


nombre,actividad,importe
Mariano Pérez Claver,VIAJE,9680.76
Mariano Pérez Claver,CA$H,7000.0
Mariano Pérez Claver,RESTAURANTE,4672.5
Mariano Pérez Claver,COMPRA BIENES,2585.13
Mariano Pérez Claver,HOTEL,2349.28
Mariano Pérez Claver,HOGAR,1955.9
Mariano Pérez Claver,BARCO,1909.69
Mariano Pérez Claver,ROPA,1321.23
Mariano Pérez Claver,COCHE,953.91
Mariano Pérez Claver,SALUD,540.0


### ¿Quién se gasta más, los concejales o los directivos?

In [25]:
%%sql
select funcion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc

2 rows affected.


funcion,importe
concejal,710420.29
directivo,474830.84


### ¿Qué organización se gasta más?

In [26]:
%%sql
select organizacion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where organizacion is not null
group by 1
order by 2 desc

10 rows affected.


organizacion,importe
Partido Popular,316289.09
PSOE,139472.72
Izquierda Unida,81090.2
CC OO,77367.32
UGT,39218.73
Conf. de Cuadros,18453.28
Patronal (Unipyme),14081.63
CEIM,12490.1
Comisión de Control,8757.22
CEOE,3200.0


### ¿Qué comercio es más popular entre los miembros?

In [27]:
%%sql
select comercio, count(distinct mov.id_miembro) as numero_miembros
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where comercio is not null
group by 1
order by 2 desc
limit 5

5 rows affected.


comercio,numero_miembros
EL CORTE INGLES,47
RENFE 001,24
IBERIA,22
EL CORTE INGLES S.A.,21
VIAJES ECI,20
