

# PostgreSQL


## Borrado de datos

In [1]:
!echo 'learner' | sudo -S -u postgres dropdb practica_jms


[sudo] password for learner: 

In [2]:
!echo 'learner' | sudo -S -u postgres createdb practica_jms -O learner

[sudo] password for learner: 

In [3]:
%load_ext sql

In [4]:
%sql postgresql://learner:learner@localhost/practica_jms

u'Connected: learner@practica_jms'


# Carga de datos en Pandas

En este caso, recordamos que los datos los tenemos normalizados en los siguientes ficheros CSV:
- ./data/escaladores_2017.csv
- ./data/ascensos_2017.csv
- ./data/dificultades.csv
- ./data/tipos_encadenamiento.csv

In [5]:
import pandas as pd

In [6]:
df_dificultades = pd.read_csv("./data/dificultades.csv", encoding='utf-8');
df_encadenamientos = pd.read_csv("./data/tipos_encadenamiento.csv", encoding='utf-8');
df_escaladores = pd.read_csv("./data/escaladores_lite_2017.csv", encoding='utf-8');
df_ascensos = pd.read_csv("./data/ascensos_lite_2017.csv", encoding='utf-8');

## Tablas de la base de datos

Dadas las preguntas vamos a crear tres tablas como se muestran en la imagen:

![Tablas PostgreSQL](./img/tablasPostgreSQL.jpg)

Ahora voy a adaptar los data frames para tener la información de dichas tablas.

### Adaptacion de data frame de ascensos 

En este caso debo fusionar la tabla de tipos de encadenamiento con la tabla de ascensos


In [7]:
df_encadenamientos.head()

Unnamed: 0,id_tipo_encadenamiento,tipo_encadenamiento
0,1,Redpoint
1,2,Flash
2,3,Onsight
3,4,Toprope


In [8]:
df_ascensos.head()

Unnamed: 0,id_escalador,id_dificultad,id_tipo_encadenamiento,nombre_via,risco,sector,fecha,pais
0,20384,33,2,LE DE,FONTAINEBLEAU,ROCHER CANON,2017-04-17,FRA
1,66043,33,3,PRINCESA LEA,MONT SERRAT,PARAIBUNA,2017-05-26,BRA
2,63910,31,2,IMAGINOSKOP,DOLINA KOBYLANSKA,SKALNY MUR,2017-08-10,POL
3,48641,31,3,KLASYCZNA,RUDAWY,KIKLOP,2017-04-29,POL
4,19137,31,3,GENERATION GAP,SKAHA,KIDS CLIFF,2017-03-20,CAN


In [9]:
df_ascensos = pd.merge(df_ascensos, df_encadenamientos, on = ['id_tipo_encadenamiento'], how = 'inner')
df_ascensos = df_ascensos[['id_escalador','id_dificultad', 'tipo_encadenamiento', 'nombre_via', 'risco', 'sector', 'pais']];
df_ascensos.head()

Unnamed: 0,id_escalador,id_dificultad,tipo_encadenamiento,nombre_via,risco,sector,pais
0,20384,33,Flash,LE DE,FONTAINEBLEAU,ROCHER CANON,FRA
1,63910,31,Flash,IMAGINOSKOP,DOLINA KOBYLANSKA,SKALNY MUR,POL
2,66722,29,Flash,KING OF PAIN,SQUAMISH,SUPERFLY,CAN
3,39776,25,Flash,HELMER GEDENKWEG,FüSSEN,PS. NW.,DEU
4,53706,31,Flash,DIAMOND ZEN,BLACK MOUNTAIN,TRAILSIDE BOULDER,USA



### Adaptacion de data frame de escaladores

En este caso no hay nada que adaptar


In [10]:
df_escaladores.head()

Unnamed: 0,id_escalador,nombre,sexo,fecha_nacimiento,ciudad,pais,comienzo
0,5,Joe McLoughlin,Hombre,1969-05-07,North Attleboro,USA,1991
1,10,Jens Larssen,Hombre,1965-06-22,Göteborg,SWE,1992
2,28,Knut Rokne,Hombre,1972-03-27,Calgary,CAN,1988
3,35,Jason Kester,Hombre,1971-08-12,portland,USA,1992
4,38,Alan Cassidy,Hombre,1982-12-10,Glasgow,GBR,1993


In [11]:
df_escaladores.isnull().sum()

id_escalador        0
nombre              0
sexo                0
fecha_nacimiento    0
ciudad              0
pais                0
comienzo            0
dtype: int64

### Adaptación de data frame de dificultades

En este caso nos vamos a quedar solo con la columna de identificación y el grado francés y voy a verificar si hay valores vacios


In [12]:
df_dificultades = df_dificultades[['id_dificultad', 'grado_frances']];
df_dificultades.head()

Unnamed: 0,id_dificultad,grado_frances
0,1,-
1,2,1
2,3,1a
3,4,1b
4,5,1c


In [13]:
df_dificultades.isnull().sum()

id_dificultad    0
grado_frances    0
dtype: int64


### Creación de las tablas PostgreSQL


In [14]:
%sql DROP TABLE ascensos
%sql DROP TABLE escaladores
%sql DROP TABLE dificultades

(psycopg2.ProgrammingError) table "ascensos" does not exist
 [SQL: 'DROP TABLE ascensos']
(psycopg2.ProgrammingError) table "escaladores" does not exist
 [SQL: 'DROP TABLE escaladores']
(psycopg2.ProgrammingError) table "dificultades" does not exist
 [SQL: 'DROP TABLE dificultades']


In [15]:
%%sql CREATE TABLE escaladores (
    id_escalador      int not null PRIMARY KEY,
    nombre            varchar(100),
    sexo              varchar(6),
    fecha_nacimiento  date,
    ciudad            varchar(50),
    pais              varchar(11),
    comienzo          int,
    CONSTRAINT pk_escaladores UNIQUE(id_escalador)
)

Done.


[]

In [16]:
%%sql CREATE TABLE dificultades (
    id_dificultad   int not null PRIMARY KEY,
    grado_frances   varchar(10),
    CONSTRAINT pk_dificultades UNIQUE(id_dificultad)
)

Done.


[]

In [17]:
%sql CREATE SEQUENCE seq_mov_id;

Done.


[]

In [18]:
%%sql CREATE TABLE ascensos (
    id_ascenso           int not null default nextval('seq_mov_id'),
    id_escalador         int not null REFERENCES escaladores(id_escalador),
    id_dificultad        int not null REFERENCES dificultades(id_dificultad),
    tipo_encadenamiento  varchar(10),
    nombre_via           varchar(200),
    risco                varchar(100),
    sector               varchar(100),
    pais                 varchar(5),
    CONSTRAINT pk_ascensiones UNIQUE(id_ascenso)
)

Done.


[]


## Exportacion de data frames a PostgreSQL


In [19]:
from sqlalchemy import create_engine

In [20]:
engine = create_engine('postgresql://learner:learner@localhost:5432/practica_jms')

In [21]:
df_escaladores.to_sql('escaladores', engine, if_exists = 'append', index = False)

In [22]:
df_dificultades.to_sql('dificultades', engine, if_exists = 'append', index = False)

In [23]:
df_ascensos.to_sql('ascensos', engine, if_exists = 'append', index = False)

Realizamos unas queries de prueba

In [24]:
%%sql
SELECT count(*)
FROM escaladores

1 rows affected.


count
8080


In [25]:
%%sql
SELECT *
FROM dificultades
LIMIT 10

10 rows affected.


id_dificultad,grado_frances
1,-
2,1
3,1a
4,1b
5,1c
6,1+
7,2
8,2a
9,2b
10,2c


In [26]:
%%sql
SELECT *
FROM ascensos
WHERE tipo_encadenamiento = 'Onsight'
LIMIT 10

10 rows affected.


id_ascenso,id_escalador,id_dificultad,tipo_encadenamiento,nombre_via,risco,sector,pais
1627,66043,33,Onsight,PRINCESA LEA,MONT SERRAT,PARAIBUNA,BRA
1628,48641,31,Onsight,KLASYCZNA,RUDAWY,KIKLOP,POL
1629,19137,31,Onsight,GENERATION GAP,SKAHA,KIDS CLIFF,CAN
1630,55943,25,Onsight,FERMAYWEG,FRANKENJURA,KATZENLöCHER,DEU
1631,61321,31,Onsight,GOLDKöPFL,ZILLERTAL,EWIGE JAGDGRüNDE,AUT
1632,56007,33,Onsight,DONALD,KVARNEBERGET,SJøVEGGEN,SWE
1633,59914,25,Onsight,HOLLYWOOD,KOLSåS,ØVRE SYDSTUP,NOR
1634,21135,29,Onsight,VECTOR CRACK,CULP VALLEY,COTTON WOOD,USA
1635,66516,21,Onsight,CZAR PGR-U,DOLINA KOBYLANSKA,KULA,POL
1636,23287,33,Onsight,DRäNGLER,FRANKENJURA,RUINE RIEGELSTEIN,DEU



## Respuestas a las preguntas planteadas

### 1.a) Los 10 escaladores (hombres) más activos (orden auxiliar por Id)



In [27]:
%%sql
SELECT A.id_escalador, E.nombre, E.sexo, E.pais, count(*) as "numero_vias"
FROM ascensos AS A
     LEFT JOIN escaladores AS E on (A.id_escalador = E.id_escalador)
WHERE E.sexo = 'Hombre'
GROUP BY A.id_escalador, E.nombre, E.pais, E.sexo
ORDER BY "numero_vias" DESC, "id_escalador" DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,sexo,pais,numero_vias
50884,Christopher Leonetti,Hombre,USA,47
20384,Clemens Kurth,Hombre,DEU,26
20095,Matthias Schuster,Hombre,DEU,26
66250,Kuba Kaminski,Hombre,POL,24
9171,Laurenz Trawnicek,Hombre,AUT,23
46622,Raúl Crespo,Hombre,ESP,19
42086,Marcin Opozda,Hombre,POL,19
66466,Christian Boehme,Hombre,DEU,18
47732,Thomas de Fleurian,Hombre,FRA,18
35847,Zack Bum,Hombre,DEU,18


### 1.b) Los 10 escaladoras (mujeres) más activas (orden auxiliar por Id)

In [28]:
%%sql
SELECT A.id_escalador, E.nombre, E.sexo, E.pais, count(*) as "numero_vias"
FROM ascensos AS A
     LEFT JOIN escaladores AS E on (A.id_escalador = E.id_escalador)
WHERE E.sexo = 'Mujer'
GROUP BY A.id_escalador, E.nombre, E.pais, E.sexo
ORDER BY "numero_vias" DESC, "id_escalador" DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,sexo,pais,numero_vias
65502,Ksenia Targosz,Mujer,POL,13
65069,Mania Mania A.,Mujer,POL,12
65707,Ewelina Cienkus,Mujer,POL,11
54695,Elfi Hasler,Mujer,AUT,11
62354,La Shoune,Mujer,FRA,10
58835,Dominika Sołtys,Mujer,POL,10
57447,Sue Murphy,Mujer,CAN,10
53983,Daniela Bärtschi,Mujer,CHE,10
49569,Karina Kosiorek,Mujer,POL,10
32043,Reidun M. Romundstad,Mujer,NOR,10


### 2. Lista de los 10 ascensos "On sight" de la escaladora más activa en orden decreciente de dificultad (y por nombre ascendete)

Comprobaremos que la escaladora, en este data set diezmado solo tiene 7 ascensos a vista.

In [29]:
%%sql
SELECT A.nombre_via, D.grado_frances, A.risco, A.pais
FROM ascensos AS A
     LEFT JOIN dificultades AS D ON (A.id_dificultad=D.id_dificultad)
WHERE A.id_escalador = 53983
      AND A.tipo_encadenamiento = 'Onsight'
ORDER BY D.id_dificultad DESC, nombre_via ASC
LIMIT 10

7 rows affected.


nombre_via,grado_frances,risco,pais
SFIGATELLO,6b,ULASSAI,ITA
BILBO,5c,HERR DER RINGE,CHE
CALMA E GESSA!,5c,SAN NICOLò,ITA
GRAZIANEDDU,5c,CALA GONONE,ITA
LA RICETTA DELLA FELICITA,5c,CALA GONONE,ITA
SGIMBOLINA,5c,BRONTALLO,CHE
MARINELLA BOULDER,5b,ULASSAI,ITA


### 3. Dificultad media de los ascensos del escalador más activo



In [30]:
%%sql

WITH avg_table AS (
    SELECT round(avg(id_dificultad),0) as id_dificultad_media 
    FROM ascensos
    WHERE id_escalador = 50884
)
SELECT grado_frances AS "Dificultad media de ascensos escalador mas activo"
FROM dificultades
WHERE id_dificultad=(SELECT id_dificultad_media FROM avg_table)


1 rows affected.


Dificultad media de ascensos escalador mas activo
5c+


### 4.a) Los 10 ascensos mas dificiles 

In [31]:
%%sql

SELECT A.id_escalador,
       E.nombre,
       E.pais as "pais de origen",
       A.nombre_via,
       D.grado_frances,
       A.tipo_encadenamiento,
       A.risco,
       A.pais
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador = E.id_escalador)
     LEFT JOIN dificultades AS D ON (A.id_dificultad = D.id_dificultad)
ORDER BY A.id_dificultad DESC, E.id_escalador ASC
LIMIT 10

10 rows affected.


id_escalador,nombre,pais de origen,nombre_via,grado_frances,tipo_encadenamiento,risco,pais
1476,Adam Ondra,CZE,SILENCE,9c,Redpoint,FLATANGER,NOR
1476,Adam Ondra,CZE,MOVE HARD,9b,Redpoint,FLATANGER,NOR
22437,Stefano Ghisolfi,ITA,FIRST ROUND FIRST MINUTE,9b,Redpoint,MARGALEF,ESP
1476,Adam Ondra,CZE,NATURALMENTE,9a+,Redpoint,CAMAIORE,ITA
1476,Adam Ondra,CZE,ULTIMATUM,9a+,Redpoint,ARCO,ITA
8707,Daniel Fuertes,ESP,NO PAIN NO GAIN,9a+,Redpoint,RODELLAR,ESP
14130,David Firnenburg,DEU,LA RAMBLA,9a+,Redpoint,SIURANA,ESP
18008,Piotr Schab,POL,THOR'S HAMMER,9a+,Redpoint,FLATANGER,NOR
22437,Stefano Ghisolfi,ITA,LA RAMBLA,9a+,Redpoint,SIURANA,ESP
22437,Stefano Ghisolfi,ITA,FIRST LEY,9a+,Redpoint,MARGALEF,ESP


### 4.b) Los 10 ascensos mas dificiles a vista (On sight)

In [32]:
%%sql

SELECT A.id_escalador,
       E.nombre,
       E.pais as "pais de origen",
       2017 - E.comienzo as "Años de experiencia",
       A.nombre_via,
       D.grado_frances,
       A.tipo_encadenamiento,
       A.risco,
       A.pais
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador = E.id_escalador)
     LEFT JOIN dificultades AS D ON (A.id_dificultad = D.id_dificultad)
WHERE A.tipo_encadenamiento = 'Onsight'
ORDER BY A.id_dificultad DESC,  E.id_escalador ASC
LIMIT 10

10 rows affected.


id_escalador,nombre,pais de origen,Años de experiencia,nombre_via,grado_frances,tipo_encadenamiento,risco,pais
22437,Stefano Ghisolfi,ITA,13,FISH EYE,8c,Onsight,OLIANA,ESP
18008,Piotr Schab,POL,14,PEQUENA ESTRELLA,8b+,Onsight,RODELLAR,ESP
6726,Manu Lopez,FRA,21,WHAT,8b,Onsight,LEONIDIO,GRC
38626,luis rodriguez martin,ESP,7,BRUJO,8b,Onsight,SADERNES,ESP
1476,Adam Ondra,CZE,18,MATA HARI,8a+,Onsight,FRANKENJURA,DEU
4424,Marcin Wszolek,POL,21,NUEVE ZETA,8a+,Onsight,CHULILLA,ESP
16672,Gonzalo Larrocha,ESP,20,DNA EXTENSION,8a+,Onsight,KALYMNOS,GRC
27822,Michaela Kiersch,USA,15,LA FEMME BLANCHE,8a+,Onsight,CéüSE,FRA
34114,jose luis palao,ESP,23,REALIDAD VIRTUAL,8a+,Onsight,POLORIA,ESP
34114,jose luis palao,ESP,23,TEAM BTR,8a+,Onsight,BIELSA,ESP



### 5.a) Grado medio y maximo de los ascensos en España de los 10 escaladores NO ESPAÑOLES con mas ascensos en España


In [33]:
%%sql

SELECT E.nombre,
       E.pais AS "Pais de origen",
       count(*) AS "Numero de ascensos en España",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=round(avg(A.id_dificultad),0)
       ) AS "Grado medio",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=max(A.id_dificultad)
       ) AS "Grado maximo"
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador=E.id_escalador)
WHERE A.pais='ESP'
      AND E.pais!='ESP'
GROUP BY E.nombre,
         E.pais,
         E.id_escalador
ORDER BY "Numero de ascensos en España" DESC, E.id_escalador ASC
LIMIT 10

10 rows affected.


nombre,Pais de origen,Numero de ascensos en España,Grado medio,Grado maximo
Nuno Henriques,PRT,14,6a+,7a
"Grzegorz ""Buła"" Golowczyk",POL,9,7b+,8b+
philipp kieffer,DEU,7,6c+/7a,7c
Wojtek Pełka,POL,7,7c+/8a,8b
"Gonçalo ""Gongas"" Coutinho",PRT,6,5a,6a
Tieme van Veen,NLD,6,6c+/7a,8a
Kuba Pe,POL,6,7a,7b+
Gabriel Korbiel,POL,6,7a+/7b,7c
Amber Thornton,GBR,6,5c,6c
Benjamin Thomas,FRA,6,7a,7c+



### 5.b) Grado medio y maximo de los ascensos en España de los 10 escaladores ESPAÑOLES con mas ascensos en España


In [34]:
%%sql

SELECT E.nombre,
       E.pais AS "Pais de origen",
       count(*) AS "Numero de ascensos en España",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=round(avg(A.id_dificultad),0)
       ) AS "Grado medio",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=max(A.id_dificultad)
       ) AS "Grado maximo"
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador=E.id_escalador)
WHERE A.pais='ESP'
      AND E.pais='ESP'
GROUP BY E.nombre,
         E.pais,
         E.id_escalador
ORDER BY "Numero de ascensos en España" DESC, E.id_escalador ASC
LIMIT 10

10 rows affected.


nombre,Pais de origen,Numero de ascensos en España,Grado medio,Grado maximo
Raúl Crespo,ESP,18,6a+/6b,7b
Chaken Gómez conde,ESP,16,7c+,8b
Adrian Alameda,ESP,14,6c+,8a+
Alex Garriga,ESP,13,7b+/7c,8a+
Xavier Gatell Romero,ESP,12,7b+,8a
jose luis palao,ESP,12,8a+,8b+
Jose Agustí,ESP,10,7c+,8a
Gonzalo Larrocha,ESP,10,8a+/8b,9a
Tomata Tomata,ESP,10,6c+,7a+
luis rodriguez martin,ESP,10,8a/+,8b+



### 6.a) Dificultad media y maxima de los ascensos NO "Top Rope" de los escaladores con menos de 3 años de experiencia

In [35]:
%%sql

SELECT count(*) as "Ascensos de escaladores < 3 años experiencia",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS "Dificultad media",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad=max(A.id_dificultad)
       ) AS "Dificultad maximo"
FROM ascensos AS A
WHERE id_escalador IN ( SELECT id_escalador 
                        FROM escaladores
                        WHERE (2017-comienzo) BETWEEN 0 AND 3 )
                   AND tipo_encadenamiento != 'Toprope'

1 rows affected.


Ascensos de escaladores < 3 años experiencia,Dificultad media,Dificultad maximo
1009,6a+/6b,8a+


### 6.b) Dificultad media y maxima de los ascensos NO "Top Rope" de los escaladores con entre 10 y 30 años de experiencia

In [36]:
%%sql

SELECT count(*) as "Ascensos de escaladores 10->30 años experiencia",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS "Dificultad media",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = max(A.id_dificultad)
       ) AS "Grado maximo"

FROM ascensos AS A
WHERE id_escalador IN ( SELECT id_escalador 
                        FROM escaladores
                        WHERE (2017-comienzo) BETWEEN 10 AND 30 )
                   AND tipo_encadenamiento != 'Toprope'

1 rows affected.


Ascensos de escaladores 10->30 años experiencia,Dificultad media,Grado maximo
3861,7a,9c


### 7. Los 10 riscos españoles (o zonas) con mas ascensos por orden decreciente de numero de ascensos

In [37]:
%%sql
SELECT risco, count(*) as numero_ascensos
FROM ascensos
WHERE pais='ESP'
GROUP BY risco
ORDER BY numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,numero_ascensos
MARGALEF,194
CUENCA,148
SIURANA,147
ALBARRACíN,137
RODELLAR,136
CHULILLA,134
MALLORCA,63
LA PEDRIZA,61
MONTSERRAT,58
EL CHORRO,44


### 8.a) Las 10 zonas o rsicos españoles con mayor nivel de difcultad media de ascensos ordenadas por orden decreciente de dificultad y por numero de ascensos decreciente

In [38]:
%%sql
SELECT risco,
       round(avg(A.id_dificultad),0) AS id_dificultad_media,
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS dificultad_media,
       count(*) AS numero_ascensos
FROM ascensos AS A
WHERE pais='ESP'
GROUP BY risco
ORDER BY id_dificultad_media DESC, numero_ascensos DESC, risco ASC
LIMIT 10

10 rows affected.


risco,id_dificultad_media,dificultad_media,numero_ascensos
LA COVA DE L'OCELL,71,8c/+,2
POLORIA,66,8b,2
FIGOLS,66,8b,1
OLIANA,65,8a+/8b,14
ORIHUELA,65,8a+/8b,2
SANTA LINYA,64,8a+,18
LA MUELA,64,8a+,2
BALTZOLA,64,8a+,1
CACIN,64,8a+,1
LA COMARCA,64,8a+,1


### 8.b) Las 10 zonas o riscos españoles con menor nivel de dificultad medio de ascensos ordenadas por orden creciente de dificultad y por numero de ascensos decreciente

In [39]:
%%sql
SELECT risco,
       round(avg(A.id_dificultad),0) AS id_dificultad_media,
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS dificultad_media,
       count(*) AS numero_ascensos
FROM ascensos AS A
WHERE pais='ESP'
GROUP BY risco
ORDER BY id_dificultad_media ASC, numero_ascensos DESC, risco ASC
LIMIT 10

10 rows affected.


risco,id_dificultad_media,dificultad_media,numero_ascensos
PORTOMARIN,21,4a,2
MONT-RAL,25,4c,1
OTO,25,4c,1
PUERTO ROQUE,26,4c+,3
PUEBLA DE GUZMAN,27,4+,5
BALNEARIO DE PANTICOSA,27,4+,2
SAVASSONA,29,5a,2
LA DEHESA DE LA OLIVA,29,5a,1
LA PUENTE,29,5a,1
MALLORKA,29,5a,1
