

# PostgreSQL


## Borrado de datos

In [1]:
!echo 'learner' | sudo -S -u postgres dropdb practica_jms


[sudo] password for learner: 

In [2]:
!echo 'learner' | sudo -S -u postgres createdb practica_jms -O learner

[sudo] password for learner: 

In [3]:
%load_ext sql

In [4]:
%sql postgresql://learner:learner@localhost/practica_jms

u'Connected: learner@practica_jms'


# Carga de datos en Pandas

En este caso, recordamos que los datos los tenemos normalizados en los siguientes ficheros CSV:
- ./data/escaladores_2017.csv
- ./data/ascensos_2017.csv
- ./data/dificultades.csv
- ./data/tipos_encadenamiento.csv

In [5]:
import pandas as pd

In [6]:
df_dificultades = pd.read_csv("./data/dificultades.csv", encoding='utf-8');
df_encadenamientos = pd.read_csv("./data/tipos_encadenamiento.csv", encoding='utf-8');
df_escaladores = pd.read_csv("./data/escaladores_lite_2017.csv", encoding='utf-8');
df_ascensos = pd.read_csv("./data/ascensos_lite_2017.csv", encoding='utf-8');

## Tablas de la base de datos

Dadas las preguntas vamos a crear tres tablas como se muestran en la imagen:

![Tablas PostgreSQL](./img/tablasPostgreSQL.jpg)

Ahora voy a adaptar los data frames para tener la información de dichas tablas.

### Adaptacion de data frame de ascensos 

En este caso debo fusionar la tabla de tipos de encadenamiento con la tabla de ascensos


In [7]:
df_encadenamientos.head()

Unnamed: 0,id_tipo_encadenamiento,tipo_encadenamiento
0,1,Redpoint
1,2,Flash
2,3,Onsight
3,4,Toprope


In [8]:
df_ascensos.head()

Unnamed: 0,id_escalador,id_dificultad,id_tipo_encadenamiento,nombre_via,risco,sector,fecha,pais
0,66274,25,4,KVARTETTEN,LASSEHAGA,BôNN,2017-06-16,SWE
1,63668,29,3,JęKI KRóLIKA,DOLINA BEDKOWSKA,ŁABAJOWA,2017-08-03,POL
2,38449,17,2,HINTERTüR,CHEMNITZTAL,GELOBTES LAND,2017-08-22,DEU
3,65826,29,2,SMOCHINE,MACIN,MEMORIAL,2017-04-28,ROM
4,39127,29,3,ZACIęCIE Z OKAPEM,SKAłY GóRY TROJAN,TROJAN,2017-07-30,POL


In [9]:
df_ascensos = pd.merge(df_ascensos, df_encadenamientos, on = ['id_tipo_encadenamiento'], how = 'inner')
df_ascensos = df_ascensos[['id_escalador','id_dificultad', 'tipo_encadenamiento', 'nombre_via', 'risco', 'sector', 'pais']];
df_ascensos.head()

Unnamed: 0,id_escalador,id_dificultad,tipo_encadenamiento,nombre_via,risco,sector,pais
0,66274,25,Toprope,KVARTETTEN,LASSEHAGA,BôNN,SWE
1,66080,33,Toprope,LO MORISSEC ASSASS�,MARGALEF,BLOC DEL PORK,ESP
2,29844,25,Toprope,"FORGIVE ME AMY, FOR I HAVE SENT",RED RIVER GORGE,GOLD COAST,USA
3,63671,29,Toprope,JEKI KROLIKA,DOLINA BEDKOWSKA,LABAJOWA,POL
4,33479,31,Toprope,KRYCKAN,UTBY,GäRDSåS,SWE



### Adaptacion de data frame de escaladores

En este caso no hay nada que adaptar


In [10]:
df_escaladores.head()

Unnamed: 0,id_escalador,nombre,sexo,fecha_nacimiento,ciudad,pais,comienzo
0,5,Joe McLoughlin,Hombre,1969-05-07,North Attleboro,USA,1991
1,10,Jens Larssen,Hombre,1965-06-22,Göteborg,SWE,1992
2,28,Knut Rokne,Hombre,1972-03-27,Calgary,CAN,1988
3,35,Jason Kester,Hombre,1971-08-12,portland,USA,1992
4,38,Alan Cassidy,Hombre,1982-12-10,Glasgow,GBR,1993


In [11]:
df_escaladores.isnull().sum()

id_escalador        0
nombre              0
sexo                0
fecha_nacimiento    0
ciudad              0
pais                0
comienzo            0
dtype: int64

### Adaptación de data frame de dificultades

En este caso nos vamos a quedar solo con la columna de identificación y el grado francés y voy a verificar si hay valores vacios


In [12]:
df_dificultades = df_dificultades[['id_dificultad', 'grado_frances']];
df_dificultades.head()

Unnamed: 0,id_dificultad,grado_frances
0,1,-
1,2,1
2,3,1a
3,4,1b
4,5,1c


In [13]:
df_dificultades.isnull().sum()

id_dificultad    0
grado_frances    0
dtype: int64


### Creación de las tablas PostgreSQL


In [14]:
%sql DROP TABLE ascensos
%sql DROP TABLE escaladores
%sql DROP TABLE dificultades

(psycopg2.ProgrammingError) table "ascensos" does not exist
 [SQL: 'DROP TABLE ascensos']
(psycopg2.ProgrammingError) table "escaladores" does not exist
 [SQL: 'DROP TABLE escaladores']
(psycopg2.ProgrammingError) table "dificultades" does not exist
 [SQL: 'DROP TABLE dificultades']


In [15]:
%%sql CREATE TABLE escaladores (
    id_escalador      int not null PRIMARY KEY,
    nombre            varchar(100),
    sexo              varchar(6),
    fecha_nacimiento  date,
    ciudad            varchar(50),
    pais              varchar(11),
    comienzo          int,
    CONSTRAINT pk_escaladores UNIQUE(id_escalador)
)

Done.


[]

In [16]:
%%sql CREATE TABLE dificultades (
    id_dificultad   int not null PRIMARY KEY,
    grado_frances   varchar(10),
    CONSTRAINT pk_dificultades UNIQUE(id_dificultad)
)

Done.


[]

In [17]:
%sql CREATE SEQUENCE seq_mov_id;

Done.


[]

In [18]:
%%sql CREATE TABLE ascensos (
    id_ascenso           int not null default nextval('seq_mov_id'),
    id_escalador         int not null REFERENCES escaladores(id_escalador),
    id_dificultad        int not null REFERENCES dificultades(id_dificultad),
    tipo_encadenamiento  varchar(10),
    nombre_via           varchar(200),
    risco                varchar(100),
    sector               varchar(100),
    pais                 varchar(5),
    CONSTRAINT pk_ascensiones UNIQUE(id_ascenso)
)

Done.


[]


## Exportacion de data frames a PostgreSQL


In [19]:
from sqlalchemy import create_engine

In [20]:
engine = create_engine('postgresql://learner:learner@localhost:5432/practica_jms')

In [21]:
df_escaladores.to_sql('escaladores', engine, if_exists = 'append', index = False)

In [22]:
df_dificultades.to_sql('dificultades', engine, if_exists = 'append', index = False)

In [23]:
df_ascensos.to_sql('ascensos', engine, if_exists = 'append', index = False)

Realizamos unas queries de prueba

In [24]:
%%sql
SELECT count(*)
FROM escaladores

1 rows affected.


count
8080


In [25]:
%%sql
SELECT *
FROM dificultades
LIMIT 10

10 rows affected.


id_dificultad,grado_frances
1,-
2,1
3,1a
4,1b
5,1c
6,1+
7,2
8,2a
9,2b
10,2c


In [26]:
%%sql
SELECT *
FROM ascensos
WHERE tipo_encadenamiento = 'Onsight'
LIMIT 10

10 rows affected.


id_ascenso,id_escalador,id_dificultad,tipo_encadenamiento,nombre_via,risco,sector,pais
162,63668,29,Onsight,JęKI KRóLIKA,DOLINA BEDKOWSKA,ŁABAJOWA,POL
163,39127,29,Onsight,ZACIęCIE Z OKAPEM,SKAłY GóRY TROJAN,TROJAN,POL
164,18285,33,Onsight,TIM UND STRUPPI,ALLGäU,SELTMANS,DEU
165,40669,29,Onsight,TANNENRISS,FIESCHERTAL,SONNENPLATTEN,CHE
166,57836,25,Onsight,FEAR OF A BLACK PLANET,BISHOP,DALE'S CAMP,USA
167,1984,31,Onsight,VIA DEL POLLO,MARGALEF,BLOC DEL PORK,ESP
168,54638,33,Onsight,WIELKA LIPA,DOLINA BEDKOWSKA,ŁABAJOWA,POL
169,45223,33,Onsight,KESZMERESZMERE,ROZNOW,SZARA PłYTA,POL
170,58698,33,Onsight,FOL'KLOR,RED STONE,D,UKR
171,37559,21,Onsight,GLISTA,ROVINJ,B/3,HRV



## Respuestas a las preguntas planteadas

### 1.a) Los 10 escaladores (hombres) más activos (orden auxiliar por Id)



In [27]:
%%sql
SELECT A.id_escalador, E.nombre, E.sexo, E.pais, count(*) as "numero_vias"
FROM ascensos AS A
     LEFT JOIN escaladores AS E on (A.id_escalador = E.id_escalador)
WHERE E.sexo = 'Hombre'
GROUP BY A.id_escalador, E.nombre, E.pais, E.sexo
ORDER BY "numero_vias" DESC, "id_escalador" DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,sexo,pais,numero_vias
50884,Christopher Leonetti,Hombre,USA,43
20095,Matthias Schuster,Hombre,DEU,33
9171,Laurenz Trawnicek,Hombre,AUT,33
20384,Clemens Kurth,Hombre,DEU,24
23550,Moritz Perwitzschky,Hombre,DEU,22
62639,Artur Gryt,Hombre,POL,21
30439,Nuno Henriques,Hombre,PRT,20
37830,Rodrigo Pessoa,Hombre,BRA,19
60616,Alex Garriga,Hombre,ESP,17
40521,Brandon Gezel,Hombre,USA,17


### 1.b) Los 10 escaladoras (mujeres) más activas (orden auxiliar por Id)

In [28]:
%%sql
SELECT A.id_escalador, E.nombre, E.sexo, E.pais, count(*) as "numero_vias"
FROM ascensos AS A
     LEFT JOIN escaladores AS E on (A.id_escalador = E.id_escalador)
WHERE E.sexo = 'Mujer'
GROUP BY A.id_escalador, E.nombre, E.pais, E.sexo
ORDER BY "numero_vias" DESC, "id_escalador" DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,sexo,pais,numero_vias
53983,Daniela Bärtschi,Mujer,CHE,16
54695,Elfi Hasler,Mujer,AUT,13
65502,Ksenia Targosz,Mujer,POL,12
51142,Isabelle Kölle,Mujer,AUT,12
44050,Betka Galicic,Mujer,SVN,12
37559,Magdalena Trzemzalska,Mujer,POL,11
60268,Annemarie Van den Berg,Mujer,NLD,10
55467,Katrin Gründler,Mujer,DEU,10
49469,Line Tveter,Mujer,NOR,10
22291,Stella Mascari,Mujer,USA,10


### 2. Lista de los 10 ascensos "On sight" de la escaladora más activa en orden decreciente de dificultad (y por nombre ascendete)

Comprobaremos que la escaladora, en este data set diezmado solo tiene 7 ascensos a vista.

In [29]:
%%sql
SELECT A.nombre_via, D.grado_frances, A.risco, A.pais
FROM ascensos AS A
     LEFT JOIN dificultades AS D ON (A.id_dificultad=D.id_dificultad)
WHERE A.id_escalador = 53983
      AND A.tipo_encadenamiento = 'Onsight'
ORDER BY D.id_dificultad DESC, nombre_via ASC
LIMIT 10

9 rows affected.


nombre_via,grado_frances,risco,pais
UNDA NIEDDA,6b+,GUTTURU CARDAXIUS,ITA
TIRO GHIRO,6a+,BRONTALLO,CHE
BRIDGE,6a,CALA FUILI,ITA
DOLCE EDERA,6a,ISELLE,CHE
MATèRIA FOSCA,6a,SIURANA,ESP
QUIDAM,5c,JOLIMONT,CHE
MATEDO,5b,SAN NICOLò,ITA
MOIJE.COM,5b,LE RIF D'ORIOL,FRA
BOLA DE DRAP,5a,ARBOLI,ESP


### 3. Dificultad media de los ascensos del escalador más activo



In [30]:
%%sql

WITH avg_table AS (
    SELECT round(avg(id_dificultad),0) as id_dificultad_media 
    FROM ascensos
    WHERE id_escalador = 50884
)
SELECT grado_frances AS "Dificultad media de ascensos escalador mas activo"
FROM dificultades
WHERE id_dificultad=(SELECT id_dificultad_media FROM avg_table)


1 rows affected.


Dificultad media de ascensos escalador mas activo
6


### 4.a) Los 10 ascensos mas dificiles 

In [31]:
%%sql

SELECT A.id_escalador,
       E.nombre,
       E.pais as "pais de origen",
       2017 - E.comienzo as "Años de experiencia",
       A.nombre_via,
       D.grado_frances,
       A.tipo_encadenamiento,
       A.risco,
       A.pais
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador = E.id_escalador)
     LEFT JOIN dificultades AS D ON (A.id_dificultad = D.id_dificultad)
ORDER BY A.id_dificultad DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,pais de origen,Años de experiencia,nombre_via,grado_frances,tipo_encadenamiento,risco,pais
1476,Adam Ondra,CZE,18,SILENCE,9c,Redpoint,FLATANGER,NOR
1476,Adam Ondra,CZE,18,MOVE HARD,9b,Redpoint,FLATANGER,NOR
22437,Stefano Ghisolfi,ITA,13,FIRST ROUND FIRST MINUTE,9b,Redpoint,MARGALEF,ESP
14130,David Firnenburg,DEU,16,LA RAMBLA,9a+,Redpoint,SIURANA,ESP
22437,Stefano Ghisolfi,ITA,13,FIRST LEY,9a+,Redpoint,MARGALEF,ESP
27079,Evan Hau,CAN,13,HONOUR AND GLORY,9a+,Redpoint,ECHO CANYON,CAN
18008,Piotr Schab,POL,14,THOR'S HAMMER,9a+,Redpoint,FLATANGER,NOR
22437,Stefano Ghisolfi,ITA,13,LA RAMBLA,9a+,Redpoint,SIURANA,ESP
1476,Adam Ondra,CZE,18,NATURALMENTE,9a+,Redpoint,CAMAIORE,ITA
1476,Adam Ondra,CZE,18,ULTIMATUM,9a+,Redpoint,ARCO,ITA


### 4.b) Los 10 ascensos mas dificiles a vista (On sight)

In [32]:
%%sql

SELECT A.id_escalador,
       E.nombre,
       E.pais as "pais de origen",
       2017 - E.comienzo as "Años de experiencia",
       A.nombre_via,
       D.grado_frances,
       A.tipo_encadenamiento,
       A.risco,
       A.pais
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador = E.id_escalador)
     LEFT JOIN dificultades AS D ON (A.id_dificultad = D.id_dificultad)
WHERE A.tipo_encadenamiento = 'Onsight'
ORDER BY A.id_dificultad DESC
LIMIT 10

10 rows affected.


id_escalador,nombre,pais de origen,Años de experiencia,nombre_via,grado_frances,tipo_encadenamiento,risco,pais
17981,Stéphane Hanssens,BEL,17,NEGOCIEE,8b,Onsight,SIURANA,ESP
10806,Guillaume Lebret,FRA,16,WHAT,8b,Onsight,LEONIDIO,GRC
6726,Manu Lopez,FRA,21,WHAT,8b,Onsight,LEONIDIO,GRC
8345,Mathieu Bouyoud,FRA,15,LAGUNAS MENTALES,8a+,Onsight,OTIñAR,ESP
34114,jose luis palao,ESP,23,HUMPHREY,8a+,Onsight,BIELSA,ESP
14130,David Firnenburg,DEU,16,ZONA 0,8a+,Onsight,SIURANA,ESP
47324,Jonas Junker,DEU,2017,LAS CLOCHAS DE LA TARGA,8a+,Onsight,CHULILLA,ESP
31370,Stefano Carnati,ITA,8,ER BUS,8a+,Onsight,TRENTO,ITA
46646,Hernan Garcia,MEX,13,EL MAL PAS,8a+,Onsight,CALDERS,ESP
23678,Urs Schoenenberger,CHE,25,ANGELIKA,8a,Onsight,KALYMNOS,GRC



### 5.a) Grado medio y maximo de los ascensos en España de los 10 escaladores NO ESPAÑOLES con mas ascensos en España


In [33]:
%%sql

SELECT E.nombre,
       E.pais AS "Pais de origen",
       count(*) AS "Numero de ascensos en España",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=round(avg(A.id_dificultad),0)
       ) AS "Grado medio",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=max(A.id_dificultad)
       ) AS "Grado maximo"
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador=E.id_escalador)
WHERE A.pais='ESP'
      AND E.pais!='ESP'
GROUP BY E.nombre,
         E.pais
ORDER BY "Numero de ascensos en España" DESC
LIMIT 10

10 rows affected.


nombre,Pais de origen,Numero de ascensos en España,Grado medio,Grado maximo
Nuno Henriques,PRT,20,6a+,7a
"Grzegorz ""Buła"" Golowczyk",POL,10,7b+,8b
Isabelle Kölle,AUT,9,7c+,8b+
Markus Glück,DEU,6,6b+/6c,7a
Mickaël S,FRA,6,7c,8a
Rajko Zajc,SVN,6,7b/+,7c+
Benjamin Thomas,FRA,6,7a+,8a
Jessica Verbeek,NLD,6,5b,6a
Steve Crowe,GBR,6,7c/+,8a+
Stefan Madej,POL,6,7c+/8a,8a+



### 5.b) Grado medio y maximo de los ascensos en España de los 10 escaladores ESPAÑOLES con mas ascensos en España


In [34]:
%%sql

SELECT E.nombre,
       E.pais AS "Pais de origen",
       count(*) AS "Numero de ascensos en España",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=round(avg(A.id_dificultad),0)
       ) AS "Grado medio",
       (
         SELECT grado_frances FROM dificultades WHERE id_dificultad=max(A.id_dificultad)
       ) AS "Grado maximo"
FROM ascensos AS A 
     LEFT JOIN escaladores AS E ON (A.id_escalador=E.id_escalador)
WHERE A.pais='ESP'
      AND E.pais='ESP'
GROUP BY E.nombre,
         E.pais
ORDER BY "Numero de ascensos en España" DESC
LIMIT 10

10 rows affected.


nombre,Pais de origen,Numero de ascensos en España,Grado medio,Grado maximo
Alex Garriga,ESP,17,7c,8b
Raúl Crespo,ESP,11,6b+/6c,7b
Chaken Gómez conde,ESP,11,7c/+,8a+
Daniel Fuertes,ESP,10,8a+,9a+
Tomata Tomata,ESP,10,6c+,7b
patrick abellaneda,ESP,9,6a/+,7b+
Padin Peinch,ESP,9,6a/+,7a
Renaud Moulin,ESP,9,7c+/8a,8a+
Adrian Alameda,ESP,9,6c,8a+
vicen Carrasco,ESP,9,6a+,6c



### 6.a) Dificultad media y maxima de los ascensos NO "Top Rope" de los escaladores con menos de 3 años de experiencia

In [35]:
%%sql

SELECT count(*) as "Ascensos de escaladores < 3 años experiencia",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS "Dificultad media",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad=max(A.id_dificultad)
       ) AS "Dificultad maximo"
FROM ascensos AS A
WHERE id_escalador IN ( SELECT id_escalador 
                        FROM escaladores
                        WHERE (2017-comienzo) BETWEEN 0 AND 3 )
                   AND tipo_encadenamiento != 'Toprope'

1 rows affected.


Ascensos de escaladores < 3 años experiencia,Dificultad media,Dificultad maximo
1071,6a+/6b,8b


### 6.b) Dificultad media y maxima de los ascensos NO "Top Rope" de los escaladores con entre 10 y 30 años de experiencia

In [36]:
%%sql

SELECT count(*) as "Ascensos de escaladores 10->30 años experiencia",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS "Dificultad media",
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = max(A.id_dificultad)
       ) AS "Grado maximo"

FROM ascensos AS A
WHERE id_escalador IN ( SELECT id_escalador 
                        FROM escaladores
                        WHERE (2017-comienzo) BETWEEN 10 AND 30 )
                   AND tipo_encadenamiento != 'Toprope'

1 rows affected.


Ascensos de escaladores 10->30 años experiencia,Dificultad media,Grado maximo
3858,7a,9c


### 7. Los 10 riscos españoles (o zonas) con mas ascensos por orden decreciente de numero de ascensos

In [37]:
%%sql
SELECT risco, count(*) as numero_ascensos
FROM ascensos
WHERE pais='ESP'
GROUP BY risco
ORDER BY numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,numero_ascensos
MARGALEF,200
CHULILLA,164
SIURANA,148
RODELLAR,143
CUENCA,127
ALBARRACíN,92
MALLORCA,88
LA PEDRIZA,54
MONTSERRAT,53
TEVERGA,40


### 8.a) Los 10 sectores españoles con mayor nivel de difcultad media de ascensos ordenadas por orden decreciente de dificultad y por numero de ascensos decreciente

In [38]:
%%sql
SELECT risco,
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS dificultad_media,
       count(*) AS numero_ascensos
FROM ascensos AS A
WHERE pais='ESP'
GROUP BY risco
ORDER BY dificultad_media DESC, numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,dificultad_media,numero_ascensos
LA COVA DE L'OCELL,9a,1
TARBENA,8c+,1
SANTA LINYA,8a+/8b,13
SANTUARIO,8a+,2
BENTUE,8a+,1
MOIA,8a+,1
POLORIA,8a+,1
VILLANUEVA DEL ROSARIO,8a,9
CUEVA BOLLU,8a,1
MOIà,8a,1


### 8.b) Las 10 sectores españoles con menor nivel de dificultad medio de ascensos ordenadas por orden creciente de dificultad y por numero de ascensos decreciente

In [39]:
%%sql
SELECT risco,
       (
           SELECT grado_frances
           FROM dificultades
           WHERE id_dificultad = round(avg(A.id_dificultad),0)
       ) AS dificultad_media,
       count(*) AS numero_ascensos
FROM ascensos AS A
WHERE pais='ESP'
GROUP BY risco
ORDER BY dificultad_media ASC, numero_ascensos DESC
LIMIT 10

10 rows affected.


risco,dificultad_media,numero_ascensos
BALNEARIO DE PANTICOSA,4+,2
EL BUBóN,4a,1
PICOS DE EUROPA,4a,1
SUBIRATS,4b,1
TIVISSA,4c,1
BAROñA,4c,1
LOBADIZ,5a,2
BARRUECOS,5a,1
TEBA,5a,1
TIJUANA,5a,1
