# PostgreSQL

## Borrado de datos

In [None]:
%alias dropdb docker exec -i postgres_container dropdb -U postgres 
%alias createdb docker exec -i postgres_container createdb -U postgres

In [None]:
dropdb black

In [None]:
createdb black

In [None]:
%load_ext sql

In [None]:
%sql postgresql://postgres:postgres@localhost/black


# Carga de datos en Pandas

Partimos de los datos normalizados en fichero Excel. Leemos cada hoja del fichero Excel en un DataFrame de Pandas distinto

In [None]:
import pandas as pd

In [None]:
df_mov = pd.read_excel("./data/black.xlsx", sheet_name= "Movimientos", engine='openpyxl')
df_miembros = pd.read_excel("./data/black.xlsx", sheet_name= "Miembros", engine='openpyxl')

Se realiza una pequeña comprobación para verificar que no hay datos duplicados

In [None]:
df_mov.head(5)

In [None]:
(df_mov.groupby(['fecha', 'id_miembro', 'hora', 'minuto', 'comercio', 'importe']).size() > 1).sum()

In [None]:
df_mov.query('id_miembro == 77 and hora == 11 and minuto == 40')

Perfecto ;-)

## Creacción de tablas

Para almacenar la información se van a crear 2 tablas, una con movimientos y otra con los miembros de la organización que han realizado el movimiento.  
Las 2 tablas están relacionadas por el campo id_miembro (se llama igual en ambas tablas)

Adicionalmente se va a utilizar una secuencia que nos va a permitir tener una PK única para la tabla de movimientos


<br><br> 

<img src="images/Modelo_PostgreSQL.png" width="400" height="300">


<br><br>

La siguiente instrucción fallará la primera vez que se ejecuta!

In [None]:
%sql DROP TABLE movimientos
%sql DROP TABLE miembros
%sql DROP SEQUENCE seq_mov_id;

In [None]:
%sql CREATE SEQUENCE seq_mov_id;

In [None]:
%%sql 
CREATE TABLE miembros (
    id_miembro      int not null PRIMARY KEY,
    nombre         varchar(200),
    funcion        varchar(40),
    organizacion   varchar(200),
    CONSTRAINT pk_miembros UNIQUE(id_miembro)
);

In [None]:
%%sql 
CREATE TABLE movimientos (
    id_movimiento   int not null default nextval('seq_mov_id'),
    fecha           date not null,
    hora            int not null,
    minuto          int not null,
    id_miembro      int not null REFERENCES miembros(id_miembro),
    importe         decimal not null,
    comercio        varchar(200),
    actividad_completa varchar(200),
    actividad       varchar(100),
    CONSTRAINT pk_movimientos UNIQUE(id_movimiento)
);

## Exportación de los datos a PostgreSQL

Para exportar los datos a la base de datos, vamos a aprovechar una funcionalidad que nos ofrece Pandas, de exportación de datos a una base de datos relacional.

En este caso hemos creado el esquema previamente, pero podríamos no haberlo hecho (parámetro **if_exists**)

In [None]:
from sqlalchemy import create_engine

In [None]:
engine = create_engine('postgresql://postgres:postgres@localhost:5432/black')

In [None]:
df_miembros.head(10)

In [None]:
df_miembros.to_sql('miembros', engine, if_exists = 'append', index = False)

In [None]:
df_mov.to_sql('movimientos', engine, if_exists = 'append', index = False)

Fijate que las columnas en Pandas y en la tabla tienen que ser exactamente las mismas y llamarse igual!

PostgreSQL pone automáticamente el nombre de las columnas en minúscula a no ser que cuando crees la tabla pogas el nombre de las columnas entrecomillado.

# Consultando información

Hacemos unas querys previas para vericar que todo ha ido bien

In [None]:
%%sql
select count(*)
from movimientos

In [None]:
%%sql
select count(*)
from miembros

In [None]:
%%sql
select count(distinct comercio || actividad || actividad_completa)
from movimientos
where comercio is not null

In [None]:
%%sql
select *
from movimientos
order by importe desc
limit 10

### Los 10 movimientos mas caros por actividad

In [None]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where actividad = 'HOGAR'
order by importe desc
limit 10

### Los 10 movimientos mas caros

In [None]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
order by importe desc
limit 10

### Los movimientos de una persona concreta (ordenados por importe)

In [None]:
%%sql 
select nombre, fecha, actividad_completa, importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
order by importe desc
limit 10

### Las 10 personas que mas han gastado

In [None]:
%%sql 
select nombre, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc
limit 10

### Importes de una persona agrupados por actividad

In [None]:
%%sql
select nombre, actividad, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where nombre = 'Mariano Pérez Claver'
group by 1,2
order by 3 desc

### ¿Quién se gasta más, los concejales o los directivos?

In [None]:
%%sql
select funcion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
group by 1
order by 2 desc

### ¿Qué organización se gasta más?

In [None]:
%%sql
select organizacion, sum(importe) as importe
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where organizacion is not null
group by 1
order by 2 desc

### ¿Qué comercio es más popular entre los miembros?

In [None]:
%%sql
select comercio, count(distinct mov.id_miembro) as numero_miembros
from movimientos mov
    inner join miembros mi on (mov.id_miembro = mi.id_miembro)
where comercio is not null
group by 1
order by 2 desc
limit 5