

# PostgreSQL


## Borrado de datos

In [1]:
!echo 'learner' | sudo -S -u postgres dropdb practica_jms


[sudo] password for learner: 

In [2]:
!echo 'learner' | sudo -S -u postgres createdb practica_jms -O learner

[sudo] password for learner: 

In [3]:
%load_ext sql

In [4]:
%sql postgresql://learner:learner@localhost/practica_jms

u'Connected: learner@practica_jms'


# Carga de datos en Pandas

En este caso, recordamos que los datos los tenemos normalizados en los siguientes ficheros CSV:
- ./data/escaladores_2017.csv
- ./data/ascensos_2017.csv
- ./data/dificultades.csv
- ./data/tipos_encadenamiento.csv

In [5]:
import pandas as pd

In [6]:
df_dificultades = pd.read_csv("./data/dificultades.csv", encoding='utf-8');
df_encadenamientos = pd.read_csv("./data/tipos_encadenamiento.csv", encoding='utf-8');
df_escaladores = pd.read_csv("./data/escaladores_lite_2017.csv", encoding='utf-8');
df_ascensos = pd.read_csv("./data/ascensos_lite_2017.csv", encoding='utf-8');

## Tablas de la base de datos

Dadas las preguntas vamos a crear tres tablas como se muestran en la imagen:

![Tablas PostgreSQL](./img/tablasPostgreSQL.jpg)

Ahora voy a adaptar los data frames para tener la información de dichas tablas.

### Adaptacion de data frame de ascensos 

En este caso debo fusionar la tabla de tipos de encadenamiento con la tabla de ascensos


In [7]:
df_encadenamientos.head()

Unnamed: 0,id_tipo_encadenamiento,tipo_encadenamiento
0,1,Redpoint
1,2,Flash
2,3,Onsight
3,4,Toprope


In [8]:
df_ascensos.head()

Unnamed: 0,id_escalador,id_dificultad,id_tipo_encadenamiento,nombre_via,risco,sector,fecha,pais
0,19961,33,3,MEGA DIRETTORE,ARCO,NAGO,2017-03-18,ITA
1,65177,33,3,THE GLUG GLUG,TEN SLEEP,FRENCH CATTLE RANCH,2017-08-15,USA
2,35847,25,1,RED 27,FONTAINEBLEAU,FRANCHARD CUSINIERE,2017-06-11,FRA
3,64646,31,4,PAJANG,WEINZöDL,WINDLEGER,2017-08-07,AUT
4,65553,31,3,SCHAMPUS,FRANKENJURA,SCHLARAFFENLAND,2017-06-15,DEU


In [9]:
df_ascensos = pd.merge(df_ascensos, df_encadenamientos, on = ['id_tipo_encadenamiento'], how = 'inner')
df_ascensos = df_ascensos[['id_escalador','id_dificultad', 'tipo_encadenamiento', 'nombre_via', 'risco', 'sector', 'pais']];
df_ascensos.head()

Unnamed: 0,id_escalador,id_dificultad,tipo_encadenamiento,nombre_via,risco,sector,pais
0,19961,33,Onsight,MEGA DIRETTORE,ARCO,NAGO,ITA
1,65177,33,Onsight,THE GLUG GLUG,TEN SLEEP,FRENCH CATTLE RANCH,USA
2,65553,31,Onsight,SCHAMPUS,FRANKENJURA,SCHLARAFFENLAND,DEU
3,44862,33,Onsight,PAVLíN - KRáčALíK,TATRY,GALERIA OSTERWY,POL
4,60915,33,Onsight,BRID SUNCA,HVAR,SUPLJA STINA,HRV



### Adaptacion de data frame de escaladores

En este caso no hay nada que adaptar


In [10]:
df_escaladores.head()

Unnamed: 0,id_escalador,nombre,sexo,fecha_nacimiento,ciudad,pais,comienzo
0,5,Joe McLoughlin,Hombre,1969-05-07,North Attleboro,USA,1991
1,10,Jens Larssen,Hombre,1965-06-22,Göteborg,SWE,1992
2,28,Knut Rokne,Hombre,1972-03-27,Calgary,CAN,1988
3,35,Jason Kester,Hombre,1971-08-12,portland,USA,1992
4,38,Alan Cassidy,Hombre,1982-12-10,Glasgow,GBR,1993


In [11]:
df_escaladores.isnull().sum()

id_escalador        0
nombre              0
sexo                0
fecha_nacimiento    0
ciudad              0
pais                0
comienzo            0
dtype: int64

### Adaptación de data frame de dificultades

En este caso nos vamos a quedar solo con la columna de identificación y el grado francés y voy a verificar si hay valores vacios


In [12]:
df_dificultades = df_dificultades[['id_dificultad', 'grado_frances']];
df_dificultades.head()

Unnamed: 0,id_dificultad,grado_frances
0,1,-
1,2,1
2,3,1a
3,4,1b
4,5,1c


In [13]:
df_dificultades.isnull().sum()

id_dificultad    0
grado_frances    0
dtype: int64


### Creación de las tablas PostgreSQL


In [14]:
%sql DROP TABLE ascensos
%sql DROP TABLE escaladores
%sql DROP TABLE dificultades

(psycopg2.ProgrammingError) table "ascensos" does not exist
 [SQL: 'DROP TABLE ascensos']
(psycopg2.ProgrammingError) table "escaladores" does not exist
 [SQL: 'DROP TABLE escaladores']
(psycopg2.ProgrammingError) table "dificultades" does not exist
 [SQL: 'DROP TABLE dificultades']


In [15]:
%%sql CREATE TABLE escaladores (
    id_escalador      int not null PRIMARY KEY,
    nombre            varchar(100),
    sexo              varchar(6),
    fecha_nacimiento  date,
    ciudad            varchar(50),
    pais              varchar(11),
    comienzo          int,
    CONSTRAINT pk_escaladores UNIQUE(id_escalador)
)

Done.


[]

In [16]:
%%sql CREATE TABLE dificultades (
    id_dificultad   int not null PRIMARY KEY,
    grado_frances   varchar(10),
    CONSTRAINT pk_dificultades UNIQUE(id_dificultad)
)

Done.


[]

In [17]:
%sql CREATE SEQUENCE seq_mov_id;

Done.


[]

In [18]:
%%sql CREATE TABLE ascensos (
    id_ascenso           int not null default nextval('seq_mov_id'),
    id_escalador         int not null REFERENCES escaladores(id_escalador),
    id_dificultad        int not null REFERENCES dificultades(id_dificultad),
    tipo_encadenamiento  varchar(10),
    nombre_via           varchar(200),
    risco                varchar(100),
    sector               varchar(100),
    pais                 varchar(5),
    CONSTRAINT pk_ascensiones UNIQUE(id_ascenso)
)

Done.


[]


## Exportacion de data frames a PostgreSQL


In [19]:
from sqlalchemy import create_engine

In [20]:
engine = create_engine('postgresql://learner:learner@localhost:5432/practica_jms')

In [21]:
df_escaladores.to_sql('escaladores', engine, if_exists = 'append', index = False)

In [22]:
df_dificultades.to_sql('dificultades', engine, if_exists = 'append', index = False)

In [23]:
df_ascensos.to_sql('ascensos', engine, if_exists = 'append', index = False)

Realizamos unas queries de prueba

In [24]:
%%sql
SELECT count(*)
FROM escaladores

1 rows affected.


count
8080


In [25]:
%%sql
SELECT *
FROM dificultades
LIMIT 10

10 rows affected.


id_dificultad,grado_frances
1,-
2,1
3,1a
4,1b
5,1c
6,1+
7,2
8,2a
9,2b
10,2c


In [26]:
%%sql
SELECT *
FROM ascensos
WHERE tipo_encadenamiento = 'Onsight'
LIMIT 10

10 rows affected.


id_ascenso,id_escalador,id_dificultad,tipo_encadenamiento,nombre_via,risco,sector,pais
1,19961,33,Onsight,MEGA DIRETTORE,ARCO,NAGO,ITA
2,65177,33,Onsight,THE GLUG GLUG,TEN SLEEP,FRENCH CATTLE RANCH,USA
3,65553,31,Onsight,SCHAMPUS,FRANKENJURA,SCHLARAFFENLAND,DEU
4,44862,33,Onsight,PAVLíN - KRáčALíK,TATRY,GALERIA OSTERWY,POL
5,60915,33,Onsight,BRID SUNCA,HVAR,SUPLJA STINA,HRV
6,63128,33,Onsight,MISS MARTLE,SCHWäBISCHE ALB,KESSELWAND,DEU
7,66250,31,Onsight,NO 2,KAMENA VRATA,STONE AGE,HRV
8,52543,33,Onsight,RE-DECORATE YOUR FACE,WIED IL-MIELAH,UPSTREAM BOULDER,MLT
9,47998,33,Onsight,GRIZZLY,MOZET,STEENBOKMASSIEF,BEL
10,20110,29,Onsight,STICKY REVELATIONS P1,UTAH HILLS,PROPHESY,USA



## Respuestas a las preguntas planteadas

### 1.a) Los 10 escaladores (hombres) más activos (orden auxiliar por Id)



In [27]:
%%sql
SELECT A.id_escalador, E.nombre, E.sexo, E.pais, count(*) as "numero_vias"
FROM ascensos AS A
     LEFT JOIN escaladores AS E on (A.id_escalador = E.id_escalador)
WHERE E.sexo = 'Hombre'
GROUP BY A.id_escalador, E.nombre, E.pais, E.sexo
ORDER BY "numero_vias" DESC, "id_escalador" DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,sexo,pais,numero_vias
50884,Christopher Leonetti,Hombre,USA,50
20095,Matthias Schuster,Hombre,DEU,37
62639,Artur Gryt,Hombre,POL,20
9171,Laurenz Trawnicek,Hombre,AUT,20
42086,Marcin Opozda,Hombre,POL,19
35082,Filip Notebaert,Hombre,BEL,17
28498,Lukasz Harazin,Hombre,POL,17
20384,Clemens Kurth,Hombre,DEU,17
66250,Kuba Kaminski,Hombre,POL,16
26155,Valentin Sattek,Hombre,AUT,16


### 1.b) Los 10 escaladoras (mujeres) más activas

In [28]:
%%sql
SELECT A.id_escalador, E.nombre, E.sexo, E.pais, count(*) as "numero_vias"
FROM ascensos AS A
     LEFT JOIN escaladores AS E on (A.id_escalador = E.id_escalador)
WHERE E.sexo = 'Mujer'
GROUP BY A.id_escalador, E.nombre, E.pais, E.sexo
ORDER BY "numero_vias" DESC, "id_escalador" DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,sexo,pais,numero_vias
53983,Daniela Bärtschi,Mujer,CHE,15
21011,Roxane DURAND,Mujer,FRA,13
65502,Ksenia Targosz,Mujer,POL,11
65194,Kater Karlo,Mujer,DEU,11
65069,Mania Mania A.,Mujer,POL,11
60087,Ivana Balic,Mujer,HRV,11
49569,Karina Kosiorek,Mujer,POL,11
48798,Ba Lu,Mujer,POL,10
29821,Wilma Thurkow,Mujer,NLD,10
22291,Stella Mascari,Mujer,USA,10


### 2. Lista de los 10 ascensos "On sight" de la escaladora más activa en orden decreciente de dificultad

In [29]:
%%sql
SELECT A.nombre_via, D.grado_frances, A.risco, A.pais
FROM ascensos AS A
     LEFT JOIN dificultades AS D ON (A.id_dificultad=D.id_dificultad)
WHERE A.id_escalador = 44050
      AND A.tipo_encadenamiento = 'Onsight'
ORDER BY D.id_dificultad DESC
LIMIT 10

7 rows affected.


nombre_via,grado_frances,risco,pais
SCHIFIO,6c+,MADONNA DELLA ROTA,ITA
SVULAZZ' SVULAZZ',6a+,PALINURO,ITA
JUNC,6a+,NAPOLEONICA,ITA
SUNSHINE REAGGEE,6a,VIPAVA,SVN
DIEDRO CONCAVO,5b,NAPOLEONICA,ITA
GRBUZL DIREKT,5b,POD GOLICO,SVN
HRASTOV LIST,5a,POD ŠKALO,SVN


### 3. Dificultad media de los ascensos del escalador más activo



In [30]:
%%sql

WITH avg_table AS (
    SELECT round(avg(id_dificultad),0) as id_dificultad_media 
    FROM ascensos
    WHERE id_escalador = 50884
)
SELECT grado_frances AS "Dificultad media de ascensos escalador mas activo"
FROM dificultades
WHERE id_dificultad=(SELECT id_dificultad_media FROM avg_table)


1 rows affected.


Dificultad media de ascensos escalador mas activo
5b+


### 4.a) Los 10 ascensos mas dificiles 

In [31]:
%%sql

SELECT A.id_escalador,
       E.nombre,
       E.pais as "pais de origen",
       2017 - E.comienzo as "Años de experiencia",
       A.nombre_via,
       D.grado_frances,
       A.tipo_encadenamiento,
       A.risco,
       A.pais
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador = E.id_escalador)
     LEFT JOIN dificultades AS D ON (A.id_dificultad = D.id_dificultad)
ORDER BY A.id_dificultad DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,pais de origen,Años de experiencia,nombre_via,grado_frances,tipo_encadenamiento,risco,pais
1476,Adam Ondra,CZE,18,SILENCE,9c,Redpoint,FLATANGER,NOR
1476,Adam Ondra,CZE,18,MOVE HARD,9b,Redpoint,FLATANGER,NOR
22437,Stefano Ghisolfi,ITA,13,FIRST ROUND FIRST MINUTE,9b,Redpoint,MARGALEF,ESP
8707,Daniel Fuertes,ESP,22,NO PAIN NO GAIN,9a+,Redpoint,RODELLAR,ESP
1476,Adam Ondra,CZE,18,ULTIMATUM,9a+,Redpoint,ARCO,ITA
22437,Stefano Ghisolfi,ITA,13,LA RAMBLA,9a+,Redpoint,SIURANA,ESP
1476,Adam Ondra,CZE,18,NATURALMENTE,9a+,Redpoint,CAMAIORE,ITA
27079,Evan Hau,CAN,13,HONOUR AND GLORY,9a+,Redpoint,ECHO CANYON,CAN
22437,Stefano Ghisolfi,ITA,13,ONE PUNCH,9a+,Redpoint,ARCO,ITA
22437,Stefano Ghisolfi,ITA,13,FIRST LEY,9a+,Redpoint,MARGALEF,ESP


### 4.b) Los 10 ascensos mas dificiles a vista (On sight)

In [32]:
%%sql

SELECT A.id_escalador,
       E.nombre,
       E.pais as "pais de origen",
       2017 - E.comienzo as "Años de experiencia",
       A.nombre_via,
       D.grado_frances,
       A.tipo_encadenamiento,
       A.risco,
       A.pais
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador = E.id_escalador)
     LEFT JOIN dificultades AS D ON (A.id_dificultad = D.id_dificultad)
WHERE A.tipo_encadenamiento = 'Onsight'
ORDER BY A.id_dificultad DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,pais de origen,Años de experiencia,nombre_via,grado_frances,tipo_encadenamiento,risco,pais
18008,Piotr Schab,POL,14,NORDIC FLOWER,8c,Onsight,FLATANGER,NOR
34114,jose luis palao,ESP,23,TILT,8b,Onsight,BIELSA,ESP
8345,Mathieu Bouyoud,FRA,15,LAGUNAS MENTALES,8a+,Onsight,OTIñAR,ESP
46646,Hernan Garcia,MEX,13,EL MAL PAS,8a+,Onsight,CALDERS,ESP
63685,Alessandro Larcher,ITA,4,STONE,8a+,Onsight,ALBENGA,ITA
35650,Alberto Gotta,ITA,21,TOMORROWLAND,8a+,Onsight,COLLEPARDO,ITA
34114,jose luis palao,ESP,23,REALIDAD VIRTUAL,8a+,Onsight,POLORIA,ESP
38626,luis rodriguez martin,ESP,7,HARD WEST,8a+,Onsight,SADERNES,ESP
41241,Laurent Hogan,FRA,25,JUGEMENT DES NIAIS,8a+,Onsight,VERDON,FRA
19612,Loic Zehani,FRA,7,THE HUMAN PAD,8a+,Onsight,MONISTROL D'ALLIER,FRA



### 5.a) Grado medio y maximo de los ascensos en España de los 10 escaladores NO ESPAÑOLES con mas ascensos en España


In [33]:
%%sql

SELECT E.nombre,
       E.pais AS "Pais de origen",
       count(*) AS "Numero de ascensos en España",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=round(avg(A.id_dificultad),0)
       ) AS "Grado medio",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=max(A.id_dificultad)
       ) AS "Grado maximo"
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador=E.id_escalador)
WHERE A.pais='ESP'
      AND E.pais!='ESP'
GROUP BY E.nombre,
         E.pais
ORDER BY "Numero de ascensos en España" DESC
LIMIT 10

10 rows affected.


nombre,Pais de origen,Numero de ascensos en España,Grado medio,Grado maximo
Nuno Henriques,PRT,12,6a/+,6b+
Jessica Verbeek,NLD,7,6a,6b+
Valentin Sattek,AUT,7,7a+,7b+
André Veríssimo,PRT,7,6a+,7a
Wojtek Pełka,POL,6,8a+/8b,8c
Gabri Borderline,ITA,5,7b/+,8a
Piotr Schab,POL,5,8c+/9a,9a
Monkey Genius,SWZ,5,8a,8b
Steve Crowe,GBR,5,7b+/7c,8a
Eli Hardie Howes,GBR,5,7c+,8c



### 5.b) Grado medio y maximo de los ascensos en España de los 10 escaladores ESPAÑOLES con mas ascensos en España


In [34]:
%%sql

SELECT E.nombre,
       E.pais AS "Pais de origen",
       count(*) AS "Numero de ascensos en España",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=round(avg(A.id_dificultad),0)
       ) AS "Grado medio",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=max(A.id_dificultad)
       ) AS "Grado maximo"
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador=E.id_escalador)
WHERE A.pais='ESP'
      AND E.pais='ESP'
GROUP BY E.nombre,
         E.pais
ORDER BY "Numero de ascensos en España" DESC
LIMIT 10

10 rows affected.


nombre,Pais de origen,Numero de ascensos en España,Grado medio,Grado maximo
Chaken Gómez conde,ESP,15,7c+,8b
Alberto López,ESP,14,6a+,6c+
Raúl Crespo,ESP,12,6b+,7a
Gonzalo Larrocha,ESP,12,8b/+,9a
Adrian Alameda,ESP,12,6c+/7a,8a
Alex Garriga,ESP,11,7b+,8b+
Tomata Tomata,ESP,11,6c+/7a,7b+
jose luis palao,ESP,11,8a+/8b,8c
David de Pedro,ESP,10,6b/+,7a
KYMY DE LA PEÑA,ESP,10,8a/+,9a



### 6.a) Dificultad media y maxima de los ascensos NO "Top Rope" de los escaladores con menos de 3 años de experiencia

In [35]:
%%sql

SELECT count(*) as "Ascensos de escaladores < 3 años experiencia",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS "Dificultad media",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad=max(A.id_dificultad)
       ) AS "Dificultad maximo"
FROM ascensos AS A
WHERE id_escalador IN ( SELECT id_escalador 
                        FROM escaladores
                        WHERE (2017-comienzo) BETWEEN 0 AND 3 )
                   AND tipo_encadenamiento != 'Toprope'

1 rows affected.


Ascensos de escaladores < 3 años experiencia,Dificultad media,Dificultad maximo
1039,6a+/6b,8b+


### 6.b) Dificultad media y maxima de los ascensos NO "Top Rope" de los escaladores con entre 10 y 30 años de experiencia

In [36]:
%%sql

SELECT count(*) as "Ascensos de escaladores 10->30 años experiencia",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS "Dificultad media",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = max(A.id_dificultad)
       ) AS "Grado maximo"

FROM ascensos AS A
WHERE id_escalador IN ( SELECT id_escalador 
                        FROM escaladores
                        WHERE (2017-comienzo) BETWEEN 10 AND 30 )
                   AND tipo_encadenamiento != 'Toprope'

1 rows affected.


Ascensos de escaladores 10->30 años experiencia,Dificultad media,Grado maximo
3770,7a,9c


### 7. Los 10 riscos españoles (o zonas) con mas ascensos por orden decreciente de numero de ascensos

In [37]:
%%sql
SELECT risco, count(*) as numero_ascensos
FROM ascensos
WHERE pais='ESP'
GROUP BY risco
ORDER BY numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,numero_ascensos
MARGALEF,158
CUENCA,153
RODELLAR,145
SIURANA,144
CHULILLA,130
ALBARRACíN,123
MALLORCA,85
LA PEDRIZA,56
MONTSERRAT,53
LA HERMIDA,48


### 8.a) Los 10 sectores españoles con mayor nivel de difcultad media de ascensos ordenadas por orden decreciente de dificultad y por numero de ascensos decreciente

In [38]:
%%sql
SELECT risco,
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS dificultad_media,
       count(*) AS numero_ascensos
FROM ascensos AS A
WHERE pais='ESP'
GROUP BY risco
ORDER BY dificultad_media DESC, numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,dificultad_media,numero_ascensos
LA COVA DE L'OCELL,9a,1
LA MUELA,8c,1
POLORIA,8b,2
LORCHA,8b,1
MOIà,8b,1
TARBENA,8a+,3
OTIñAR,8a+,2
MONSANT,8a+,1
ALBERO BAJO,8a+,1
SANTA LINYA,8a/+,21


### 8.b) Las 10 sectores españoles con menor nivel de dificultad medio de ascensos ordenadas por orden creciente de dificultad y por numero de ascensos decreciente

In [39]:
%%sql
SELECT risco,
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS dificultad_media,
       count(*) AS numero_ascensos
FROM ascensos AS A
WHERE pais='ESP'
GROUP BY risco
ORDER BY dificultad_media ASC, numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,dificultad_media,numero_ascensos
BARRUECOS,4+,2
ALEJICO,4a,1
EL BUBóN,4a,1
PEñA ARAGONESA,4c,1
BELIANES,4c,1
MENS,5,2
PEñAHORADA,5a,1
CANON DEL SIL,5a,1
PINARES DE SAN ANTON,5a,1
ARRABALDE,5a,1
