# PostgreSQL

## Borrado de datos

In [3]:
!echo 'learner' | sudo -S -u postgres dropdb black


[sudo] password for learner: 

In [4]:
!echo 'learner' | sudo -S -u postgres createdb black -O learner

[sudo] password for learner: 

In [5]:
%load_ext sql

In [6]:
%sql postgresql://learner:learner@localhost/black


u'Connected: learner@black'

# Carga de datos en Pandas

Partimos de los datos normalizados en fichero Excel. Leemos cada hoja del fichero Excel en un DataFrame de Pandas distinto

In [7]:
import pandas as pd

In [9]:
df_mov = pd.read_excel("../../data/black.xlsx", sheetname= "Movimientos")
df_miembros = pd.read_excel("../../data/black.xlsx", sheetname= "Miembros")

Se realiza una pequeña comprobación para verificar que no hay datos duplicados

In [10]:
df_mov.groupby(['fecha', 'id_miembro', 'hora', 'minuto', 'comercio', 'importe']).count().query('actividad > 1').head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,actividad_completa,actividad
fecha,id_miembro,hora,minuto,comercio,importe,Unnamed: 6_level_1,Unnamed: 7_level_1


In [11]:
df_mov.query('id_miembro == 70 and hora == 15 and minuto == 47')

Unnamed: 0,id_miembro,fecha,minuto,hora,importe,comercio,actividad_completa,actividad
12000,70,2003-03-27,47,15,131.61,"VIAJES FIESTA, SA",AGENCIAS DE VIAJES,VIAJE


Perfecto ;-)

## Creacción de tablas

Para almacenar la información se van a crear 2 tablas, una con movimientos y otra con los miembros de la organización que han realizado el movimiento.  
Las 2 tablas están relacionadas por el campo id_miembro (se llama igual en ambas tablas)

Adicionalmente se va a utilizar una secuencia que nos va a permitir tener una PK única para la tabla de movimientos


<br><br> 

<img src="images/Modelo%20PostgreSQL.png",width=400,height=300>


<br><br>

In [12]:
%sql DROP TABLE movimientos
%sql DROP TABLE miembros
%sql DROP SEQUENCE seq_mov_id;

(psycopg2.ProgrammingError) table "movimientos" does not exist
 [SQL: 'DROP TABLE movimientos']
(psycopg2.ProgrammingError) table "miembros" does not exist
 [SQL: 'DROP TABLE miembros']
(psycopg2.ProgrammingError) sequence "seq_mov_id" does not exist
 [SQL: 'DROP SEQUENCE seq_mov_id;']


In [13]:
%sql CREATE SEQUENCE seq_mov_id;

Done.


[]

In [14]:
%%sql 
CREATE TABLE miembros (
    id_miembro      int not null PRIMARY KEY,
    nombre         varchar(200),
    funcion        varchar(40),
    organizacion   varchar(200),
    CONSTRAINT pk_miembros UNIQUE(id_miembro)
);

Done.


[]

In [15]:
%%sql 
CREATE TABLE movimientos (
    id_movimiento   int not null default nextval('seq_mov_id'),
    fecha           date not null,
    hora            int not null,
    minuto          int not null,
    id_miembro      int not null REFERENCES miembros(id_miembro),
    importe         decimal not null,
    comercio        varchar(200),
    actividad_completa varchar(200),
    actividad       varchar(100),
    CONSTRAINT pk_movimientos UNIQUE(id_movimiento)
);

Done.


[]

## Exportación de los datos a PostgreSQL

Para exportar los datos a la base de datos, vamos a aprovechar una funcionalidad que nos ofrece Pandas, de exportación de datos a una base de datos relacional.

En este caso hemos creado el esquema previamente, pero podríamos no haberlo hecho (parámetro **if_exists**)

In [16]:
from sqlalchemy import create_engine

In [17]:
engine = create_engine('postgresql://learner:learner@localhost:5432/black')

In [18]:
df_miembros.to_sql('miembros', engine, if_exists = 'append', index = False)

In [19]:
df_mov.to_sql('movimientos', engine, if_exists = 'append', index = False)

# Consultando información

Hacemos unas querys previas para vericar que todo ha ido bien

In [20]:
%%sql
select count(*)
from movimientos

1 rows affected.


count
7624


In [21]:
%%sql
select count(*)
from miembros

1 rows affected.


count
83


In [22]:
%%sql
select *
from movimientos
order by importe desc
limit 10

10 rows affected.


id_movimiento,fecha,hora,minuto,id_miembro,importe,comercio,actividad_completa,actividad
3692,2006-02-14,9,13,28,11000.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
90,2008-11-19,15,48,28,6593.2,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
3810,2010-11-30,12,33,59,6519.12,EXECUTIVE TRAVELS S.A.,AGENCIAS DE VIAJES,VIAJE
6116,2011-02-14,16,57,56,5500.0,"ICE TRAVEL SPAIN, S.L.",V.DIST.VIAJES Y TRANSPORTE DE VIAJEROS,VIAJE
5518,2004-01-08,12,40,28,5283.33,VIAJES TIKAL S.A.,AGENCIAS DE VIAJES,VIAJE
3353,2007-02-01,8,27,76,5000.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
2433,2009-12-25,16,26,15,5000.0,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES
6074,2010-07-07,10,22,75,4955.0,HILAS VIAJES,AGENCIAS DE VIAJES,VIAJE
2581,2007-06-25,12,25,76,4500.0,,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),BANCO
2075,2010-03-25,20,10,28,4320.5,VIAJES ECI,EL CORTE INGLES,COMPRA BIENES


### Los 10 movimientos mas caros por actividad

In [23]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where actividad = 'HOGAR'
order by importe desc
limit 10

10 rows affected.


nombre,fecha,actividad_completa,importe
Miguel Ángel Araujo Serrano,2007-10-14,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",2150.0
Mariano Pérez Claver,2003-04-11,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",2072.0
Carlos María Martínez Martínez,2007-05-01,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",1510.0
Ricardo Romero de Tejada y Picatoste,2009-08-06,"TAPICERIAS,ALFOMBRAS",1339.94
Rafael Spottorno Díaz Caro,2003-08-10,MIRO ESTABLECIMIENTOS,1198.0
Ricardo Romero de Tejada y Picatoste,2009-04-06,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",1000.0
Ricardo Romero de Tejada y Picatoste,2008-02-14,FLORES Y PLANTAS,1000.0
Alejandro Couceiro Ojeda,2005-05-09,"ELECTRODOMESTICOS,EQUIPOS ELECTRICOS",948.0
Enrique de la Torre Martínez,2003-01-02,"FERRETERIA,BRICOLAJE,MENAJE DEL HOGAR",912.0
Pablo Abejas Juárez,2011-03-27,IKEA,835.65


### Los 10 movimientos mas caros

In [24]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
order by importe desc
limit 10

10 rows affected.


nombre,fecha,actividad_completa,importe
Ildefonso José Sánchez Barcoj,2006-02-14,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),11000.0
Ildefonso José Sánchez Barcoj,2008-11-19,EL CORTE INGLES,6593.2
Matías Amat Roca,2010-11-30,AGENCIAS DE VIAJES,6519.12
María Carmen Cafranga Cavestany,2011-02-14,V.DIST.VIAJES Y TRANSPORTE DE VIAJEROS,5500.0
Ildefonso José Sánchez Barcoj,2004-01-08,AGENCIAS DE VIAJES,5283.33
Ricardo Morado Iglesias,2007-02-01,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),5000.0
Estanislao Rodríguez-Ponga Salamanca,2009-12-25,EL CORTE INGLES,5000.0
Ramón Martínez Vilches,2010-07-07,AGENCIAS DE VIAJES,4955.0
Ricardo Morado Iglesias,2007-06-25,AGENCIAS BANCARIAS(ANTICIPO VENTANILLA),4500.0
Ildefonso José Sánchez Barcoj,2010-03-25,EL CORTE INGLES,4320.5


### Los movimientos de una persona concreta (ordenados por importe)

In [31]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
order by importe desc
limit 10

10 rows affected.


nombre,fecha,actividad_completa,importe
Mariano Pérez Claver,2005-12-25,LINEAS AEREAS,3564.71
Mariano Pérez Claver,2005-08-23,AGENCIAS DE VIAJES,2600.0
Mariano Pérez Claver,2003-04-11,"MUEBLES,ANTIGUEDADES Y GALERIAS DE ARTE",2072.0
Mariano Pérez Claver,2006-08-08,TRANSPORTE VIAJEROS ( VIA MARITIMA ),1909.69
Mariano Pérez Claver,2006-03-03,CONFECCION TEXTIL EN GENERAL,1519.0
Mariano Pérez Claver,2006-01-12,EL CORTE INGLES,870.03
Mariano Pérez Claver,2007-06-22,RESTAURANTES RESTO,618.19
Mariano Pérez Claver,2010-03-06,HIPERCOR SUPERMERCADOS EL CORTE INGLES,609.9
Mariano Pérez Claver,2009-05-02,CAJEROS AUTOMATICOS,600.0
Mariano Pérez Claver,2007-11-17,CAJEROS AUTOMATICOS,600.0


### Las 10 personas que mas han gastado

In [26]:
%%sql 
select nombre, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc
limit 10

10 rows affected.


nombre,importe
Ildefonso José Sánchez Barcoj,64590.5
Ricardo Morado Iglesias,47292.08
José Antonio Moral Santín,41207.26
Juan Manuel Astorqui Portera,39946.33
Matías Amat Roca,39820.26
Carlos María Martínez Martínez,39473.01
Miguel Blesa de la Parra,35475.15
Ramón Ferraz Ricarte,30612.27
Maria Mercedes de la Merced Monge,26030.22
Mariano Pérez Claver,25113.06


### Importes de una persona agrupados por actividad

In [27]:
%%sql
select nombre, actividad, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
group by 1,2
order by 3 desc

16 rows affected.


nombre,actividad,importe
Mariano Pérez Claver,CA$H,4200.0
Mariano Pérez Claver,AVION,3596.71
Mariano Pérez Claver,RESTAURANTE,2992.66
Mariano Pérez Claver,VIAJE,2959.67
Mariano Pérez Claver,HOGAR,2383.18
Mariano Pérez Claver,ROPA,2177.81
Mariano Pérez Claver,BARCO,1909.69
Mariano Pérez Claver,COMPRA BIENES,1554.1
Mariano Pérez Claver,SUPERMERCADO,1295.54
Mariano Pérez Claver,COCHE,584.14


### ¿Quién se gasta más, los concejales o los directivos?

In [28]:
%%sql
select funcion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc

2 rows affected.


funcion,importe
concejal,678230.22
directivo,443570.83


### ¿Qué organización se gasta más?

In [29]:
%%sql
select organizacion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where organizacion is not null
group by 1
order by 2 desc

10 rows affected.


organizacion,importe
Partido Popular,291065.83
PSOE,134077.18
Izquierda Unida,81010.34
CC OO,72338.53
UGT,34653.27
Conf. de Cuadros,16375.06
Patronal (Unipyme),14150.03
CEOE,12300.0
CEIM,11874.48
Comisión de Control,10385.5


### ¿Qué comercio es más popular entre los miembros?

In [32]:
%%sql
select comercio, count(distinct mov.id_miembro) as numero_miembros
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where comercio is not null
group by 1
order by 2 desc
limit 5

5 rows affected.


comercio,numero_miembros
EL CORTE INGLES,52
IBERIA,27
RENFE 001,23
EL CORTE INGLES S.A.,19
VIAJES ECI,17
