# SQL Intermedio

En el notebook anterior trabajamos con una sola tabla en Sqlite, pero la realidad suele ser más compleja y ustedes van a estar trabajando con múltiples tablas simultáneamente. Eso es lo que vamos a ver en este notebook

Primero importemos las librerías necesarias

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import sqlite3 as sql

Creamos una conexión a la base de datos existente 'factbook.db'

In [2]:
con = sql.connect("factbook.db")

Veamos que tablas tenemos 

In [3]:
pd.read_sql_query("SELECT * FROM facts LIMIT 10", con)

Unnamed: 0,id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate
0,1,af,Afghanistan,652230,652230,0,32564342,2.32,38.57,13.89,1.51
1,2,al,Albania,28748,27398,1350,3029278,0.3,12.92,6.58,3.3
2,3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92
3,4,an,Andorra,468,468,0,85580,0.12,8.13,6.96,0.0
4,5,ao,Angola,1246700,1246700,0,19625353,2.78,38.78,11.49,0.46
5,6,ac,Antigua and Barbuda,442,442,0,92436,1.24,15.85,5.69,2.21
6,7,ar,Argentina,2780400,2736690,43710,43431886,0.93,16.64,7.33,0.0
7,8,am,Armenia,29743,28203,1540,3056382,0.15,13.61,9.34,5.8
8,9,as,Australia,7741220,7682300,58920,22751014,1.07,12.15,7.14,5.65
9,10,au,Austria,83871,82445,1426,8665550,0.55,9.41,9.42,5.56


In [9]:
pd.read_sql_query("SELECT * FROM cities LIMIT 10", con)

Unnamed: 0,id,name,population,capital,facts_id
0,1,Oranjestad,37000,1,216
1,2,Saint John'S,27000,1,6
2,3,Abu Dhabi,942000,1,184
3,4,Dubai,1978000,0,184
4,5,Sharjah,983000,0,184
5,6,Kabul,3097000,1,1
6,7,Algiers,2916000,1,3
7,8,Oran,783000,0,3
8,9,Baku,2123000,1,11
9,10,Tirana,419000,1,2


### Inner Join

Ahora veamos cómo escribir un inner join con sintaxis de SQL

In [10]:
pd.read_sql_query('''
SELECT * FROM facts
INNER JOIN cities ON cities.facts_id = facts.id
LIMIT 10;
''', con)

Unnamed: 0,id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate,id.1,name.1,population.1,capital,facts_id
0,216,aa,Aruba,180,180,0,112162,1.33,12.56,8.18,8.92,1,Oranjestad,37000,1,216
1,6,ac,Antigua and Barbuda,442,442,0,92436,1.24,15.85,5.69,2.21,2,Saint John'S,27000,1,6
2,184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,3,Abu Dhabi,942000,1,184
3,184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,4,Dubai,1978000,0,184
4,184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,5,Sharjah,983000,0,184
5,1,af,Afghanistan,652230,652230,0,32564342,2.32,38.57,13.89,1.51,6,Kabul,3097000,1,1
6,3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92,7,Algiers,2916000,1,3
7,3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92,8,Oran,783000,0,3
8,11,aj,Azerbaijan,86600,82629,3971,9780780,0.96,16.64,7.07,0.0,9,Baku,2123000,1,11
9,2,al,Albania,28748,27398,1350,3029278,0.3,12.92,6.58,3.3,10,Tirana,419000,1,2


Un Inner Join va a darnos solamente la intersección entre dos conjuntos de datos definidos esto por la llave que utilicemos

Esto es no incluirá:
- Ni filas donde la tabla cities tenga un cities.facts_id que no coincida con facts_id de facts
- Ni filas donde la tabla facts tenga facts_id que no coincidan con cities.facts_id de cities

Una manera común de escribir querys cuando hacemos Join's es utilizar alias, como podemos ver en el siguiente ejemplo

In [11]:
pd.read_sql_query('''
SELECT * FROM facts AS f
INNER JOIN cities AS c ON c.facts_id = f.id
LIMIT 10;
''', con)

Unnamed: 0,id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate,id.1,name.1,population.1,capital,facts_id
0,216,aa,Aruba,180,180,0,112162,1.33,12.56,8.18,8.92,1,Oranjestad,37000,1,216
1,6,ac,Antigua and Barbuda,442,442,0,92436,1.24,15.85,5.69,2.21,2,Saint John'S,27000,1,6
2,184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,3,Abu Dhabi,942000,1,184
3,184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,4,Dubai,1978000,0,184
4,184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,5,Sharjah,983000,0,184
5,1,af,Afghanistan,652230,652230,0,32564342,2.32,38.57,13.89,1.51,6,Kabul,3097000,1,1
6,3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92,7,Algiers,2916000,1,3
7,3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92,8,Oran,783000,0,3
8,11,aj,Azerbaijan,86600,82629,3971,9780780,0.96,16.64,7.07,0.0,9,Baku,2123000,1,11
9,2,al,Albania,28748,27398,1350,3029278,0.3,12.92,6.58,3.3,10,Tirana,419000,1,2


o bien siendo AS opcional en la sintaxis de SQLite podemos escribir

In [12]:
pd.read_sql_query('''
SELECT * FROM facts f
INNER JOIN cities c ON c.facts_id = f.id
LIMIT 10;
''', con)

Unnamed: 0,id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate,id.1,name.1,population.1,capital,facts_id
0,216,aa,Aruba,180,180,0,112162,1.33,12.56,8.18,8.92,1,Oranjestad,37000,1,216
1,6,ac,Antigua and Barbuda,442,442,0,92436,1.24,15.85,5.69,2.21,2,Saint John'S,27000,1,6
2,184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,3,Abu Dhabi,942000,1,184
3,184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,4,Dubai,1978000,0,184
4,184,ae,United Arab Emirates,83600,83600,0,5779760,2.58,15.43,1.97,12.36,5,Sharjah,983000,0,184
5,1,af,Afghanistan,652230,652230,0,32564342,2.32,38.57,13.89,1.51,6,Kabul,3097000,1,1
6,3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92,7,Algiers,2916000,1,3
7,3,ag,Algeria,2381741,2381741,0,39542166,1.84,23.67,4.31,0.92,8,Oran,783000,0,3
8,11,aj,Azerbaijan,86600,82629,3971,9780780,0.96,16.64,7.07,0.0,9,Baku,2123000,1,11
9,2,al,Albania,28748,27398,1350,3029278,0.3,12.92,6.58,3.3,10,Tirana,419000,1,2


### Ejercicio 1: 
- Escribe una query que junte las tablas cities y facts haciendo un INNER JOIN
- Utilice alias para los nombres de las tablas
- Incluya todas las columnas de cities y la columna name de facts con el alias de 'country_name'
- Incluya sólo las primeras 5 filas

In [13]:
pd.read_sql_query('''
SELECT c.*, f.name country_name FROM facts f
INNER JOIN cities c ON c.facts_id = f.id
LIMIT 5;
''', con)

Unnamed: 0,id,name,population,capital,facts_id,country_name
0,1,Oranjestad,37000,1,216,Aruba
1,2,Saint John'S,27000,1,6,Antigua and Barbuda
2,3,Abu Dhabi,942000,1,184,United Arab Emirates
3,4,Dubai,1978000,0,184,United Arab Emirates
4,5,Sharjah,983000,0,184,United Arab Emirates


### Ejercicio 2: 
- Utiliza where para crear una tabla que contenga el nombre del país llamado 'pais' y el nombre de la ciudad capital llamado 'capital'
- Utiliza un INNER JOIN para conseguirlo

In [15]:
pd.read_sql_query('''
SELECT f.name pais, c.name capital FROM cities c
INNER JOIN facts f ON f.id = c.facts_id 
WHERE c.capital = 1
LIMIT 20;
''', con)

Unnamed: 0,pais,capital
0,Aruba,Oranjestad
1,Antigua and Barbuda,Saint John'S
2,United Arab Emirates,Abu Dhabi
3,Afghanistan,Kabul
4,Algeria,Algiers
5,Azerbaijan,Baku
6,Albania,Tirana
7,Armenia,Yerevan
8,Andorra,Andorra La Vella
9,Angola,Luanda


Ahora hemos visto lo que podemos trabajar cuando ambas tablas tienen un match, pero no de aquellos valores que no lo tienen. Vamos a hacer un par de querys de SQL para explorar esto:

In [18]:
pd.read_sql_query('''
SELECT COUNT(DISTINCT(name)) AS 'Paises_distintos' FROM facts;
''', con)

Unnamed: 0,Paises_distintos
0,261


In [21]:
pd.read_sql_query('''
SELECT COUNT(DISTINCT(facts_id)) AS 'Países en Cities' FROM cities;
''', con)

Unnamed: 0,Países en Cities
0,210


De esta comparación podemos ver que hay un grupo de países que no tienen ciudades correspondientes en la tabla 'cities' lo que nos indica que nuestros datos están incompletos, es decir, que tenemos missing values.

Una manera de explorar estos missing values es realizando un left join (veamoslo en un diagrama en el pizarrón)

In [23]:
pd.read_sql_query('''
SELECT * FROM facts
LEFT JOIN cities ON cities.facts_id = facts.id;
''', con)

Unnamed: 0,id,code,name,area,area_land,area_water,population,population_growth,birth_rate,death_rate,migration_rate,id.1,name.1,population.1,capital,facts_id
0,1,af,Afghanistan,652230.0,652230.0,0.0,3.256434e+07,2.32,38.57,13.89,1.51,6.0,Kabul,3097000.0,1.0,1
1,2,al,Albania,28748.0,27398.0,1350.0,3.029278e+06,0.30,12.92,6.58,3.30,10.0,Tirana,419000.0,1.0,2
2,3,ag,Algeria,2381741.0,2381741.0,0.0,3.954217e+07,1.84,23.67,4.31,0.92,7.0,Algiers,2916000.0,1.0,3
3,3,ag,Algeria,2381741.0,2381741.0,0.0,3.954217e+07,1.84,23.67,4.31,0.92,8.0,Oran,783000.0,0.0,3
4,4,an,Andorra,468.0,468.0,0.0,8.558000e+04,0.12,8.13,6.96,0.00,12.0,Andorra La Vella,23000.0,1.0,4
5,5,ao,Angola,1246700.0,1246700.0,0.0,1.962535e+07,2.78,38.78,11.49,0.46,13.0,Luanda,5068000.0,1.0,5
6,5,ao,Angola,1246700.0,1246700.0,0.0,1.962535e+07,2.78,38.78,11.49,0.46,14.0,Huambo,1098000.0,0.0,5
7,6,ac,Antigua and Barbuda,442.0,442.0,0.0,9.243600e+04,1.24,15.85,5.69,2.21,2.0,Saint John'S,27000.0,1.0,6
8,7,ar,Argentina,2780400.0,2736690.0,43710.0,4.343189e+07,0.93,16.64,7.33,0.00,16.0,Buenos Aires,13528000.0,1.0,7
9,7,ar,Argentina,2780400.0,2736690.0,43710.0,4.343189e+07,0.93,16.64,7.33,0.00,17.0,Cordoba,1556000.0,0.0,7


### Ejercicio 3: 
- Utiliza un where para generar un query que filtra todos los países que NO existen en la tabla de cities
- Tu query debe regresar dos columnas: 
    - Una columna con nombres de países 'paises'
    - Una columna con la población del país 'population'

In [26]:
pd.read_sql_query('''
SELECT f.name paises, f.population FROM facts f
LEFT JOIN cities c ON c.facts_id = f.id
WHERE c.facts_id IS NULL;
''', con)

Unnamed: 0,paises,population
0,Kosovo,1870981.0
1,Monaco,30535.0
2,Nauru,9540.0
3,San Marino,33020.0
4,Singapore,5674472.0
5,Holy See (Vatican City),842.0
6,Taiwan,23415130.0
7,European Union,513949400.0
8,Ashmore and Cartier Islands,
9,Christmas Island,1530.0


De la tabla anterior podemos ver varias razones por las cuales los países no tienen valores correspondientes en la tabla 'cities'
    - Países con poblaciones pequeñas
    - Ciudades estado como Monaco o Singapur
    - Territorios que no son países en si mismos
    - Regiones y Oceanos
    - Genuinos casos de missing values como Taiwan

Los LEFT JOINS son más intuitivos de entender y si no pensemos en Excel, los RIGHT JOINS rara vez se usan por este motivo salvo que se requieran querys complejas

Ahora vamos a platicar de otro tipo de JOIN, denominado FULL OUTER JOIN

Desafortunadamente este tipo de JOIN no lo soporta SQLite

Ahora que terminamos de ver los tipos de JOINs podemos pensar en cómo hacerle preguntas y encontrar la respuesta en forma de query a nuestro dataset

Veamos un tip de la vida: podemos utilizar el índice de una columna en vez de su nombre para una query. Por ejemplo, podemos escribir

In [30]:
pd.read_sql_query('''
SELECT name, migration_rate FROM FACTS
ORDER BY migration_rate DESC
LIMIT 5;
''', con)

Unnamed: 0,name,migration_rate
0,Qatar,22.39
1,American Samoa,21.13
2,"Micronesia, Federated States of",20.93
3,Syria,19.79
4,Tonga,17.84


como

In [31]:
pd.read_sql_query('''
SELECT name, migration_rate FROM FACTS
ORDER BY 2 DESC
LIMIT 5;
''', con)

Unnamed: 0,name,migration_rate
0,Qatar,22.39
1,American Samoa,21.13
2,"Micronesia, Federated States of",20.93
3,Syria,19.79
4,Tonga,17.84


### Ejercicio 4:
- Escribe un query que regrese las 10 ciudades capitales con la mayor población rankeada desde la más grande a la más pequeña
- Debes incluir las siguientes columnas en este orden: 
    - capital
    - pais
    - poblacion_ciudad

In [32]:
pd.read_sql_query('''
SELECT c.name capital, f.name pais, c.population poblacion_ciudad FROM cities c
LEFT JOIN facts f ON c.facts_id = f.id 
WHERE c.capital = 1
ORDER BY 3 DESC
LIMIT 10;
''', con)

Unnamed: 0,capital,pais,poblacion_ciudad
0,Tokyo,Japan,37217000
1,New Delhi,India,22654000
2,Mexico City,Mexico,20446000
3,Beijing,China,15594000
4,Dhaka,Bangladesh,15391000
5,Buenos Aires,Argentina,13528000
6,Manila,Philippines,11862000
7,Moscow,Russia,11621000
8,Cairo,Egypt,11169000
9,Jakarta,Indonesia,9769000


Recordemos del final de nuestro anterior que podemos incluir subquerys dentro de una query de SQL y que las subquerys se leen de adentro hacia afuera (es decir se evalúan primero)

### Ejercicio 5:
- Utiliza un join y una subquery para obtener todas las ciudades capitales con más de 10 millones de habitantes ordenadas de la más grande a la más pequeña
- Incluye las siguientes columnas
    - capital
    - pais
    - poblacion_ciudad

In [34]:
pd.read_sql_query('''
SELECT c.name capital, f.name pais, c.population poblacion_ciudad FROM facts f
INNER JOIN (
    SELECT * FROM cities
    WHERE capital = 1
    AND population > 10000000
    )
    c ON c.facts_id = f.id
ORDER BY 3 DESC
LIMIT 10;
''', con)

Unnamed: 0,capital,pais,poblacion_ciudad
0,Tokyo,Japan,37217000
1,New Delhi,India,22654000
2,Mexico City,Mexico,20446000
3,Beijing,China,15594000
4,Dhaka,Bangladesh,15391000
5,Buenos Aires,Argentina,13528000
6,Manila,Philippines,11862000
7,Moscow,Russia,11621000
8,Cairo,Egypt,11169000


### Ejercicio 6:
- Genera una query que encuentre los países donde la población de la ciudad es más de la mitad de la población total del país
- Utiliza una subquery y un join
- Crea una subquery para hacer un cálculo
- Utiliza una función de agregación
- Utiliza un WHERE y un CAST
- Las columnas que debe regresar tu query son:
    - Pais
    - Pob_Urbana
    - Pob_Total
    - Porcentaje_Pob_Urbana

In [35]:
pd.read_sql_query('''
SELECT f.name country, c.urban_pop, f.population total_pop, (urban_pop/CAST(f.population AS Float)) urban_pct FROM facts f
INNER JOIN (
    SELECT facts_id,
        SUM(population) urban_pop
    FROM cities
    GROUP BY facts_id
    ) 
    c ON c.facts_id = f.id
WHERE urban_pct > 0.5
ORDER BY urban_pct ASC;
''', con)

Unnamed: 0,country,urban_pop,total_pop,urban_pct
0,Uruguay,1672000,3341893,0.500315
1,"Congo, Republic of the",2445000,4755097,0.514185
2,Brunei,241000,429646,0.560927
3,New Caledonia,157000,271615,0.578024
4,Virgin Islands,60000,103574,0.579296
5,Falkland Islands (Islas Malvinas),2000,3361,0.595061
6,Djibouti,496000,828324,0.5988
7,Australia,13789000,22751014,0.606083
8,Iceland,206000,331918,0.620635
9,Israel,5226000,8049314,0.649248
