

# PostgreSQL


## Borrado de datos

In [1]:
!echo 'learner' | sudo -S -u postgres dropdb practica_jms


[sudo] password for learner: 

In [2]:
!echo 'learner' | sudo -S -u postgres createdb practica_jms -O learner

[sudo] password for learner: 

In [3]:
%load_ext sql

In [4]:
%sql postgresql://learner:learner@localhost/practica_jms

u'Connected: learner@practica_jms'


# Carga de datos en Pandas

En este caso, recordamos que los datos los tenemos normalizados en los siguientes ficheros CSV:
- ./data/escaladores_2017.csv
- ./data/ascensos_2017.csv
- ./data/dificultades.csv
- ./data/tipos_encadenamiento.csv

In [5]:
import pandas as pd

In [6]:
df_dificultades = pd.read_csv("./data/dificultades.csv");
df_encadenamientos = pd.read_csv("./data/tipos_encadenamiento.csv");
df_escaladores = pd.read_csv("./data/escaladores_2017.csv");
df_ascensos = pd.read_csv("./data/ascensos_2017.csv");

## Tablas de la base de datos

Dadas las preguntas vamos a crear tres tablas como se muestran en la imagen:

![Tablas PostgreSQL](./img/tablasPostgreSQL.jpg)

Ahora voy a adaptar los data frames para tener la información de dichas tablas.

### Adaptacion de data frame de ascensos 

En este caso debo fusionar la tabla de tipos de encadenamiento con la tabla de ascensos


In [7]:
df_encadenamientos.head()

Unnamed: 0,id,name
0,1,Redpoint
1,2,Flash
2,3,Onsight
3,4,Toprope


In [8]:
df_ascensos.head()

Unnamed: 0,id_escalador,id_dificultad,id_tipo_encadenamiento,nombre_via,risco,sector,fecha,pais
0,9340,44,1,BURDEN CHUCHEN,SIURANA,L'OLLA,2017-01-02,ESP
1,11635,53,1,ACAMPAMENTO BASE,COCALZINHO,PISTA,2017-05-06,BRA
2,25134,53,1,LADY DIE,HELL,Rå NYTELSE,2017-09-05,NOR
3,19578,40,1,POQUITO A POCO,PATONES,MARACAIBO,2017-07-13,ESP
4,21747,51,1,LES 5 SOEURS DE TERRES-NEUVES,FREYR,AL LEGNE,2017-04-02,BEL


In [9]:
df_encadenamientos = df_encadenamientos.rename(columns = {'id' : 'id_tipo_encadenamiento', 'name' : 'tipo_encadenamiento'});

In [10]:
df_ascensos = pd.merge(df_ascensos, df_encadenamientos, on = ['id_tipo_encadenamiento'], how = 'inner')
df_ascensos = df_ascensos[['id_escalador','id_dificultad', 'tipo_encadenamiento', 'nombre_via', 'risco', 'sector', 'pais']];
df_ascensos.head()

Unnamed: 0,id_escalador,id_dificultad,tipo_encadenamiento,nombre_via,risco,sector,pais
0,9340,44,Redpoint,BURDEN CHUCHEN,SIURANA,L'OLLA,ESP
1,11635,53,Redpoint,ACAMPAMENTO BASE,COCALZINHO,PISTA,BRA
2,25134,53,Redpoint,LADY DIE,HELL,Rå NYTELSE,NOR
3,19578,40,Redpoint,POQUITO A POCO,PATONES,MARACAIBO,ESP
4,21747,51,Redpoint,LES 5 SOEURS DE TERRES-NEUVES,FREYR,AL LEGNE,BEL



### Adaptacion de data frame de escaladores

En este data frame solo cambiaremos el nombre de la columna que tiene una ñ...


In [11]:
df_escaladores = df_escaladores.rename(columns =  {'año_comienzo' : 'comienzo'});
df_escaladores.head()

Unnamed: 0,id,nombre,sexo,fecha_nacimiento,ciudad,pais,comienzo
0,5,Joe McLoughlin,Hombre,1969-05-07,North Attleboro,USA,1991
1,10,Jens Larssen,Hombre,1965-06-22,Göteborg,SWE,1992
2,28,Knut Rokne,Hombre,1972-03-27,Calgary,CAN,1988
3,35,Jason Kester,Hombre,1971-08-12,portland,USA,1992
4,38,Alan Cassidy,Hombre,1982-12-10,Glasgow,GBR,1993


### Adaptación de data frame de dificultades

En este caso nos vamos a quedar solo con la columna de identificación y el grado francés.


In [12]:
df_dificultades = df_dificultades[['id', 'grado_frances']];
df_dificultades.head()

Unnamed: 0,id,grado_frances
0,1,-
1,2,1
2,3,1a
3,4,1b
4,5,1c


In [13]:
df_dificultades[df_dificultades['grado_frances'] == 'Na']

Unnamed: 0,id,grado_frances



### Creación de las tablas PostgreSQL


In [14]:
%sql DROP TABLE ascensos
%sql DROP TABLE escaladores
%sql DROP TABLE dificultades

(psycopg2.ProgrammingError) table "ascensos" does not exist
 [SQL: 'DROP TABLE ascensos']
(psycopg2.ProgrammingError) table "escaladores" does not exist
 [SQL: 'DROP TABLE escaladores']
(psycopg2.ProgrammingError) table "dificultades" does not exist
 [SQL: 'DROP TABLE dificultades']


In [15]:
%%sql CREATE TABLE escaladores (
    id                int not null PRIMARY KEY,
    nombre            varchar(100),
    sexo              varchar(6),
    fecha_nacimiento  date,
    ciudad            varchar(50),
    pais              varchar(11),
    comienzo          int,
    CONSTRAINT pk_escaladores UNIQUE(id)
)

Done.


[]

In [16]:
%%sql CREATE TABLE dificultades (
    id            int not null PRIMARY KEY,
    grado_frances varchar(10),
    CONSTRAINT pk_dificultades UNIQUE(id)
)

Done.


[]

In [17]:
%sql CREATE SEQUENCE seq_mov_id;

Done.


[]

In [18]:
%%sql CREATE TABLE ascensos (
    id                   int not null default nextval('seq_mov_id'),
    id_escalador         int not null REFERENCES escaladores(id),
    id_dificultad        int not null REFERENCES dificultades(id),
    tipo_encadenamiento  varchar(10),
    nombre_via           varchar(200),
    risco                varchar(100),
    sector               varchar(100),
    pais                 varchar(5),
    CONSTRAINT pk_ascensiones UNIQUE(id)
)

Done.


[]


## Exportacion de data frames a PostgreSQL


In [19]:
from sqlalchemy import create_engine

In [20]:
engine = create_engine('postgresql://learner:learner@localhost:5432/practica_jms')

In [21]:
df_escaladores.to_sql('escaladores', engine, if_exists = 'append', index = False)

In [22]:
df_dificultades.to_sql('dificultades', engine, if_exists = 'append', index = False)

In [23]:
df_ascensos.to_sql('ascensos', engine, if_exists = 'append', index = False)

Realizamos unas queries de prueba

In [24]:
%%sql
SELECT count(*)
FROM escaladores

1 rows affected.


count
8080


In [25]:
%%sql
SELECT *
FROM dificultades
LIMIT 10

10 rows affected.


id,grado_frances
1,-
2,1
3,1a
4,1b
5,1c
6,1+
7,2
8,2a
9,2b
10,2c


In [26]:
%%sql
SELECT *
FROM ascensos
WHERE tipo_encadenamiento = 'Onsight'
LIMIT 10

10 rows affected.


id,id_escalador,id_dificultad,tipo_encadenamiento,nombre_via,risco,sector,pais
105565,3012,33,Onsight,COMMITMENT,SHELF ROAD,CACTUS CLIFF,USA
105554,4275,55,Onsight,JUEGOS OCULTOS,VALDEGOBIA,CHORRERAS,ESP
105555,20028,46,Onsight,PLUS JAMAIS PEUT-êTRE,GORGES DU TARN,SHADOCKS,FRA
105556,46613,38,Onsight,CARCAJADA VERTICAL,PATONES,MARACAIBO,ESP
105557,51768,51,Onsight,L'AVENTURE INTéRIEURE,ETOILE NOIRE,FISSURES,FRA
105558,34614,57,Onsight,KALY DIVA,KALYMNOS,SECRET GARDEN,GRC
105559,61634,33,Onsight,SKIPPER,FOSTER FALLS,FIRST WALL,USA
105560,48331,42,Onsight,BAISETA,BELLúS,L'ALTET,ESP
105561,17150,62,Onsight,SOUL REBEL,OLIANA,CONTRAFORT DE RUMBAU,ESP
105562,59705,53,Onsight,SONNE HINTER DEM NEBEL,CHINESISCHE MAUER,HONGKONG,AUT



## Respuestas a las preguntas planteadas

### 1.a) Los 10 escaladores (hombres) más activos



In [27]:
%%sql
SELECT A.id_escalador, E.nombre, E.sexo, E.pais, count(*) as "numero_vias"
FROM ascensos AS A
     LEFT JOIN escaladores AS E on (A.id_escalador = E.id)
WHERE E.sexo = 'Hombre'
GROUP BY A.id_escalador, E.nombre, E.pais, E.sexo
ORDER BY "numero_vias" DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,sexo,pais,numero_vias
50884,Christopher Leonetti,Hombre,USA,619
9171,Laurenz Trawnicek,Hombre,AUT,445
20095,Matthias Schuster,Hombre,DEU,377
62639,Artur Gryt,Hombre,POL,318
66250,Kuba Kaminski,Hombre,POL,299
46622,Raúl Crespo,Hombre,ESP,279
42086,Marcin Opozda,Hombre,POL,261
32034,Peter Holy,Hombre,AUT,253
20384,Clemens Kurth,Hombre,DEU,246
28498,Lukasz Harazin,Hombre,POL,240


### 1.b) Los 10 escaladoras (mujeres) más activas

In [28]:
%%sql
SELECT A.id_escalador, E.nombre, E.sexo, E.pais, count(*) as "numero_vias"
FROM ascensos AS A
     LEFT JOIN escaladores AS E on (A.id_escalador = E.id)
WHERE E.sexo = 'Mujer'
GROUP BY A.id_escalador, E.nombre, E.pais, E.sexo
ORDER BY "numero_vias" DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,sexo,pais,numero_vias
44050,Betka Galicic,Mujer,SVN,198
53983,Daniela Bärtschi,Mujer,CHE,183
65069,Mania Mania A.,Mujer,POL,170
37559,Magdalena Trzemzalska,Mujer,POL,167
62807,Claudia Solis,Mujer,MEX,162
49569,Karina Kosiorek,Mujer,POL,155
65502,Ksenia Targosz,Mujer,POL,151
58835,Dominika Sołtys,Mujer,POL,140
57447,Sue Murphy,Mujer,CAN,137
48798,Ba Lu,Mujer,POL,124


### 2. Lista de los 10 ascensos "On sight" de la escaladora más activa en orden decreciente de dificultad

In [29]:
%%sql
SELECT A.nombre_via, D.grado_frances, A.risco, A.pais
FROM ascensos AS A
     LEFT JOIN dificultades AS D ON (A.id_dificultad=D.id)
WHERE A.id_escalador = 44050
      AND A.tipo_encadenamiento = 'Onsight'
ORDER BY D.id DESC
LIMIT 10

10 rows affected.


nombre_via,grado_frances,risco,pais
FORMATTAZIONE,7a,ORSOMARSO,ITA
QUAO,7a,ORSOMARSO,ITA
IO MONTO TU FAI,7a,ORSOMARSO,ITA
MILLEFOGLIE,7a,MADONNA DELLA ROTA,ITA
NUOVI GIARDINI,7a,MADONNA DELLA ROTA,ITA
ASCELLE ATOMICHE,6c+,NAPOLEONICA,ITA
ALTALENA,6c+,MADONNA DELLA ROTA,ITA
BOSSOLA',6c+,MADONNA DELLA ROTA,ITA
SCHIFIO,6c+,MADONNA DELLA ROTA,ITA
PRIMULA,6c+,MADONNA DELLA ROTA,ITA


### 3. Dificultad media de los ascensos del escalador más activo



In [30]:
%%sql

WITH avg_table AS (
    SELECT round(avg(id_dificultad),0) as id_dificultad_media 
    FROM ascensos
    WHERE id_escalador = 50884
)
SELECT grado_frances AS "Dificultad media de ascensos escalador mas activo"
FROM dificultades
WHERE id=(SELECT id_dificultad_media FROM avg_table)


1 rows affected.


Dificultad media de ascensos escalador mas activo
6


### 4.a) Los 10 ascensos mas dificiles 

In [31]:
%%sql

SELECT A.id_escalador,
       E.nombre,
       E.pais as "pais de origen",
       2017 - E.comienzo as "Años de experiencia",
       A.nombre_via,
       D.grado_frances,
       A.tipo_encadenamiento,
       A.risco,
       A.pais
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador = E.id)
     LEFT JOIN dificultades AS D ON (A.id_dificultad = D.id)
ORDER BY A.id_dificultad DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,pais de origen,Años de experiencia,nombre_via,grado_frances,tipo_encadenamiento,risco,pais
1476,Adam Ondra,CZE,18,SILENCE,9c,Redpoint,FLATANGER,NOR
1476,Adam Ondra,CZE,18,MOVE HARD,9b,Redpoint,FLATANGER,NOR
22437,Stefano Ghisolfi,ITA,13,FIRST ROUND FIRST MINUTE,9b,Redpoint,MARGALEF,ESP
8707,Daniel Fuertes,ESP,22,NO PAIN NO GAIN,9a+,Redpoint,RODELLAR,ESP
22437,Stefano Ghisolfi,ITA,13,FIRST LEY,9a+,Redpoint,MARGALEF,ESP
22437,Stefano Ghisolfi,ITA,13,ONE PUNCH,9a+,Redpoint,ARCO,ITA
1476,Adam Ondra,CZE,18,ULTIMATUM,9a+,Redpoint,ARCO,ITA
14130,David Firnenburg,DEU,16,LA RAMBLA,9a+,Redpoint,SIURANA,ESP
22437,Stefano Ghisolfi,ITA,13,LA RAMBLA,9a+,Redpoint,SIURANA,ESP
27079,Evan Hau,CAN,13,HONOUR AND GLORY,9a+,Redpoint,ECHO CANYON,CAN


### 4.b) Los 10 ascensos mas dificiles a vista (On sight)

In [32]:
%%sql

SELECT A.id_escalador,
       E.nombre,
       E.pais as "pais de origen",
       2017 - E.comienzo as "Años de experiencia",
       A.nombre_via,
       D.grado_frances,
       A.tipo_encadenamiento,
       A.risco,
       A.pais
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador = E.id)
     LEFT JOIN dificultades AS D ON (A.id_dificultad = D.id)
WHERE A.tipo_encadenamiento = 'Onsight'
ORDER BY A.id_dificultad DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,pais de origen,Años de experiencia,nombre_via,grado_frances,tipo_encadenamiento,risco,pais
22437,Stefano Ghisolfi,ITA,13,FISH EYE,8c,Onsight,OLIANA,ESP
1476,Adam Ondra,CZE,18,MASTERS OF THE UNIVERSE,8c,Onsight,FRANKENJURA,DEU
18008,Piotr Schab,POL,14,NORDIC FLOWER,8c,Onsight,FLATANGER,NOR
65328,Dmitrii Fakirianov,RUS,9,FISH EYE,8c,Onsight,OLIANA,ESP
18008,Piotr Schab,POL,14,L'ESPIADIMONIS,8c,Onsight,MARGALEF,ESP
18008,Piotr Schab,POL,14,CRIMPTONITE,8b+,Onsight,OLIANA,ESP
18008,Piotr Schab,POL,14,TERENCE HILL,8b+,Onsight,MARGALEF,ESP
18008,Piotr Schab,POL,14,PEQUENA ESTRELLA,8b+,Onsight,RODELLAR,ESP
1476,Adam Ondra,CZE,18,GRANDSLAM (AFTER BREAK),8b+,Onsight,FRANKENJURA,DEU
18008,Piotr Schab,POL,14,LOS úLTIMOS DíAS DEL EDéN,8b+,Onsight,MARGALEF,ESP



### 5.a) Grado medio y maximo de los ascensos en España de los 10 escaladores NO ESPAÑOLES con mas ascensos en España


In [33]:
%%sql

SELECT E.nombre,
       E.pais AS "Pais de origen",
       count(*) AS "Numero de ascensos en España",
       (
         SELECT grado_frances FROM dificultades WHERE id=round(avg(A.id_dificultad),0)
       ) AS "Grado medio",
       (
         SELECT grado_frances FROM dificultades WHERE id=max(A.id_dificultad)
       ) AS "Grado maximo"
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador=E.id)
WHERE A.pais='ESP'
      AND E.pais!='ESP'
GROUP BY E.nombre,
         E.pais
ORDER BY "Numero de ascensos en España" DESC
LIMIT 10

10 rows affected.


nombre,Pais de origen,Numero de ascensos en España,Grado medio,Grado maximo
Nuno Henriques,PRT,198,6a+,7a+
Kuba Pe,POL,118,6c+/7a,8a
"Grzegorz ""Buła"" Golowczyk",POL,109,7b+/7c,8b+
Marek Srobik,SVK,90,6c+/7a,7c
Nuno Topas Gonçalves,PRT,87,7a/+,7c+
Valentin Sattek,AUT,86,7a+,8a
Benjamin Thomas,FRA,85,7a+,8a+
Amber Thornton,GBR,83,6a,7b
André Veríssimo,PRT,74,6a+/6b,7b+
Jacek Jurkowski,POL,72,7b+,8a+



### 5.b) Grado medio y maximo de los ascensos en España de los 10 escaladores ESPAÑOLES con mas ascensos en España


In [34]:
%%sql

SELECT E.nombre,
       E.pais AS "Pais de origen",
       count(*) AS "Numero de ascensos en España",
       (
         SELECT grado_frances FROM dificultades WHERE id=round(avg(A.id_dificultad),0)
       ) AS "Grado medio",
       (
         SELECT grado_frances FROM dificultades WHERE id=max(A.id_dificultad)
       ) AS "Grado maximo"
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador=E.id)
WHERE A.pais='ESP'
      AND E.pais='ESP'
GROUP BY E.nombre,
         E.pais
ORDER BY "Numero de ascensos en España" DESC
LIMIT 10

10 rows affected.


nombre,Pais de origen,Numero de ascensos en España,Grado medio,Grado maximo
Raúl Crespo,ESP,261,6b+,7b+
Chaken Gómez conde,ESP,214,7c/+,8c
Tomata Tomata,ESP,201,6c/+,7b+
Alex Garriga,ESP,174,7b+,8b+
Xavier Gatell Romero,ESP,157,7b+,8a+
Adrian Alameda,ESP,149,6c/+,8a+
Raul Garcia,ESP,147,7a+,8a
vicen Carrasco,ESP,143,6a+/6b,7a
David Sedeño,ESP,138,6c+/7a,8a
Miguel Angel Iriarte,ESP,135,6b,7a+



### 6.a) Dificultad media y maxima de los ascensos NO "Top Rope" de los escaladores con menos de 3 años de experiencia

In [35]:
%%sql

SELECT count(*) as "Ascensos de escaladores < 3 años experiencia",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id = round(avg(id_dificultad),0)
       ) AS "Dificultad media",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id=max(id_dificultad)
       ) AS "Dificultad maximo"
FROM ascensos
WHERE id_escalador IN ( SELECT id 
                        FROM escaladores
                        WHERE (2017-comienzo) BETWEEN 0 AND 3 )
                   AND tipo_encadenamiento != 'Toprope'

1 rows affected.


Ascensos de escaladores < 3 años experiencia,Dificultad media,Dificultad maximo
17150,6b/+,8b+


### 6.b) Dificultad media y maxima de los ascensos NO "Top Rope" de los escaladores con entre 10 y 30 años de experiencia

In [36]:
%%sql

SELECT count(*) as "Ascensos de escaladores 10->30 años experiencia",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id = round(avg(id_dificultad),0)
       ) AS "Dificultad media",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id=max(id_dificultad)
       ) AS "Grado maximo"

FROM ascensos
WHERE id_escalador IN ( SELECT id 
                        FROM escaladores
                        WHERE (2017-comienzo) BETWEEN 10 AND 30 )
                   AND tipo_encadenamiento != 'Toprope'

1 rows affected.


Ascensos de escaladores 10->30 años experiencia,Dificultad media,Grado maximo
66610,7a,9c


### 7. Los 10 riscos españoles (o zonas) con mas ascensos por orden decreciente de numero de ascensos

In [37]:
%%sql
SELECT risco, count(*) as numero_ascensos
FROM ascensos
WHERE pais='ESP'
GROUP BY risco
ORDER BY numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,numero_ascensos
MARGALEF,3202
CHULILLA,2692
CUENCA,2590
SIURANA,2560
RODELLAR,2427
ALBARRACíN,2104
MALLORCA,1124
LA PEDRIZA,997
MONTSERRAT,863
LA HERMIDA,748


### 8.a) Los 10 sectores españoles con mayor nivel de difcultad media de ascensos ordenadas por orden decreciente de dificultad y por numero de ascensos decreciente

In [38]:
%%sql
SELECT risco,
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id = round(avg(id_dificultad),0)
       ) AS dificultad_media,
       count(*) AS numero_ascensos
FROM ascensos
WHERE pais='ESP'
GROUP BY risco
ORDER BY dificultad_media DESC, numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,dificultad_media,numero_ascensos
SANT MIQUEL DEL FAI,8b,2
RáFALES,8b,1
LORCHA,8a+/8b,2
ALICANTE,8a+,6
MONSANT,8a+,2
SAN ROQUE,8a+,1
ALBERO BAJO,8a/+,7
MONTGó,8a/+,4
ALVERO ALTO,8a,2
MERILLA,8a,1


### 8.b) Las 10 sectores españoles con menor nivel de dificultad medio de ascensos ordenadas por orden creciente de dificultad y por numero de ascensos decreciente

In [39]:
%%sql
SELECT risco,
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id = round(avg(id_dificultad),0)
       ) AS dificultad_media,
       count(*) AS numero_ascensos
FROM ascensos
WHERE pais='ESP'
GROUP BY risco
ORDER BY dificultad_media ASC, numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,dificultad_media,numero_ascensos
FORRONIAS,4,2
PUEBLA DE GUZMAN,4+,13
LOBADIZ,4+,3
PORTOMARIN,4+,3
PUIG ST. MARTI,4+,2
EL BUBóN,4b,3
LA PLACA,4b,1
BALNEARIO DE PANTICOSA,4c,5
BELIANES,4c,3
PEñA ARAGONESA,4c,1
