<a id='index'></a>

# SQL queries in Python

### Autor: Santiago González Montealegre

## Índice

1. [mysql.connector](#mysql)
1. [sqlalchemy](#sqlalchemy)

<a id='mysql'></a>

[Índice](#index)

## 1. `mysql.connector`

Primero debemos importar la librería que nos permite conectar con MySQL.

In [1]:
import mysql.connector as mysql

# https://medium.com/analytics-vidhya/importing-data-from-a-mysql-database-into-pandas-data-frame-a06e392d27d7
# https://www.datacamp.com/tutorial/mysql-python

Posteriormente, se realiza la conexión con todos los parámetros requeridos por parte de MySQL.

In [2]:
db = mysql.connect(
    host = 'localhost',
    user = 'root',
    passwd = '12345',
    database = 'datacamp_sql'
)

Teniendo todo esto ahora solo es necesario escribir la consulta (_query_).

In [3]:
# Usamos comillas triples para poder escribir la consulta en varias líneas
query = """
SELECT *    
FROM cities
"""

Para ejecutar la consulta lo haremos por medio de `pandas` para poder visualizar de mejor forma los resultados. 

Por esto, primero realizamos la importación:

In [4]:
import pandas as pd

Ahora ejecutamos la consulta:

In [5]:
# Una ventaja de pandas es q muestra el número de filas y columnas que retorna la consulta
df = pd.read_sql(query, db)
df

Unnamed: 0,name,country_code,city_proper_pop,metroarea_pop,urbanarea_pop
0,Abidjan,CIV,4765000,,4765000
1,Abu Dhabi,ARE,1145000,,1145000
2,Abuja,NGA,1235880,6000000.0,1235880
3,Accra,GHA,2070463,4010054.0,2070463
4,Addis Ababa,ETH,3103673,4567857.0,3103673
...,...,...,...,...,...
231,Yerevan,ARM,1060138,,1060138
232,Yokohama,JPN,3726167,,3726167
233,Zhengzhou,CHN,4122087,,4122087
234,Zhongshan,CHN,3121275,,3121275


In [6]:
df.sort_values('metroarea_pop')

Unnamed: 0,name,country_code,city_proper_pop,metroarea_pop,urbanarea_pop
33,Calgary,CAN,1235171,1214839.0,1235171
181,Rosario,ARG,1193605,1276000.0,1193605
205,T'bilisi,GEO,1118035,1485293.0,1118035
49,Cordoba,ARG,1330023,1528000.0,1330023
10,Auckland,NZL,1495000,1614300.0,1495000
...,...,...,...,...,...
231,Yerevan,ARM,1060138,,1060138
232,Yokohama,JPN,3726167,,3726167
233,Zhengzhou,CHN,4122087,,4122087
234,Zhongshan,CHN,3121275,,3121275


Una forma más manual de realizar la consulta e imprimirla sin necesidad de librerías es por medio de este código:

In [7]:
cursor = db.cursor()

# Ejecutamos la consulta
cursor.execute(query + 'LIMIT 3')

# Unimos todos los elementos de la consulta
tables = cursor.fetchall()

# Imprimimos los nombres de las columnas
columns = cursor.column_names
print(columns, '\n')

# Imprimimos las filas
for table in tables:
    print(table)
    

('name', 'country_code', 'city_proper_pop', 'metroarea_pop', 'urbanarea_pop') 

('Abidjan', 'CIV', 4765000, None, 4765000)
('Abu Dhabi', 'ARE', 1145000, None, 1145000)
('Abuja', 'NGA', 1235880, 6000000, 1235880)


Una vez hallamos acabado todas nuestras consultas, cerramos la conexión con el servidor de MySQL.

In [8]:
db.close()

<a id='sqlalchemy'></a>

[Índice](#index)

## 2. `sqlalchemy`

Primero importamos la librería `sqlalchemy` aparte de esta librería es necesario en ocasiones realizar la instalación de `pip install pymysql`.

In [9]:
import sqlalchemy as mysqla

# https://towardsdatascience.com/heres-how-to-run-sql-in-jupyter-notebooks-f26eb90f3259

Creamos la conexión siguiendo la estructura para MySQL:
```python
    mysql+pymysql://root:*_password_*@localhost:3306/*_database_*
```
Donde los parámetros encerrados por `*_ _*` son aquellos que cambian.

In [10]:
db2 = mysqla.create_engine('mysql+pymysql://root:12345@localhost:3306/datacamp_sql')
db2

Engine(mysql+pymysql://root:***@localhost:3306/datacamp_sql)

Además, debemos correr las siguientes líneas para poder realizar las consultaas

In [11]:
%load_ext sql

%sql mysql+pymysql://root:12345@localhost:3306/datacamp_sql

Hemos finalizado la configuración de la conexión con el servidor de MySQL. 

Ahora podemos realizar consultas por medio de los símbolos `%%sql` y posterior a esto se puede escribir la consulta, tal y como se realiza normalmente en _MySQL Workbench_.

In [12]:
%%sql
SELECT *
FROM cities
LIMIT 3

 * mysql+pymysql://root:***@localhost:3306/datacamp_sql
3 rows affected.


name,country_code,city_proper_pop,metroarea_pop,urbanarea_pop
Abidjan,CIV,4765000,,4765000
Abu Dhabi,ARE,1145000,,1145000
Abuja,NGA,1235880,6000000.0,1235880


También es posible guardar la consulta en una variable.

In [13]:
# We use LIMIT to show a portion of the data, however this will save just that 10 rows
big_metroarea = %sql SELECT * FROM cities ORDER BY metroarea_pop DESC LIMIT 3
big_metroarea

 * mysql+pymysql://root:***@localhost:3306/datacamp_sql
3 rows affected.


name,country_code,city_proper_pop,metroarea_pop,urbanarea_pop
Chongqing,CHN,8189800,52100100,8189800
Guangzhou,CHN,14043500,44259000,14043500
Tokyo,JPN,13513734,37843000,13513734


In [14]:
print(big_metroarea)

+-----------+--------------+-----------------+---------------+---------------+
|    name   | country_code | city_proper_pop | metroarea_pop | urbanarea_pop |
+-----------+--------------+-----------------+---------------+---------------+
| Chongqing |     CHN      |     8189800     |    52100100   |    8189800    |
| Guangzhou |     CHN      |     14043500    |    44259000   |    14043500   |
|   Tokyo   |     JPN      |     13513734    |    37843000   |    13513734   |
+-----------+--------------+-----------------+---------------+---------------+


In [15]:
big_metroarea[0][1:4]

('CHN', 8189800, 52100100)

Guardar una consulta en una variable es útil ya que se puede convertir fácilmente el resultado de la consulta en un _dataframe_ de `pandas`.

In [16]:
cities = %sql SELECT * FROM cities
df2 = cities.DataFrame()
df2

 * mysql+pymysql://root:***@localhost:3306/datacamp_sql
236 rows affected.


Unnamed: 0,name,country_code,city_proper_pop,metroarea_pop,urbanarea_pop
0,Abidjan,CIV,4765000,,4765000
1,Abu Dhabi,ARE,1145000,,1145000
2,Abuja,NGA,1235880,6000000.0,1235880
3,Accra,GHA,2070463,4010054.0,2070463
4,Addis Ababa,ETH,3103673,4567857.0,3103673
...,...,...,...,...,...
231,Yerevan,ARM,1060138,,1060138
232,Yokohama,JPN,3726167,,3726167
233,Zhengzhou,CHN,4122087,,4122087
234,Zhongshan,CHN,3121275,,3121275


In [17]:
df2.sort_values('metroarea_pop', ascending=True, na_position='last')

Unnamed: 0,name,country_code,city_proper_pop,metroarea_pop,urbanarea_pop
33,Calgary,CAN,1235171,1214839.0,1235171
181,Rosario,ARG,1193605,1276000.0,1193605
205,T'bilisi,GEO,1118035,1485293.0,1118035
49,Cordoba,ARG,1330023,1528000.0,1330023
10,Auckland,NZL,1495000,1614300.0,1495000
...,...,...,...,...,...
231,Yerevan,ARM,1060138,,1060138
232,Yokohama,JPN,3726167,,3726167
233,Zhengzhou,CHN,4122087,,4122087
234,Zhongshan,CHN,3121275,,3121275
