# Consultando una Base de Datos Relacional con Python.

Ahora que descubrimos cómo crear un motor de base de datos y enumerar las tablas de la base de datos, es hora de conectarnos al motor y ocnsultar la base de datos.

Recordemos que el termino consulta es solo una forma de decir que obtenemos datos de la Base de datos.


El hello world de consultas de SQL es :

In [None]:
SELECT * FROM Table_Name

Esta consulta devuelve todas las columnas de las filas de la tabla de interés.Por ejemplo , podriamos consultar la base de datos Chinook con:


In [None]:
SELECT * FROM Album

Esta es una consulta SQL y necesitamos descubrir cómo hacer una consulta usando Python , con SQLAlchemy y de hecho también usaremos pandas para almacenar los resultados de nuestras consultas.

El flujo de tranajo sera el siguiente:

* Importremos los paquetes y funciones necesarios.

* Crearemos el motor.

* Nos concectaremos al motor.

* Consultaremos la base de datos.

* Guardaremos los resultados en un DataFrame.

* Cerraremos la conexión.

Ahora veamos como hacer cada uno de estos pasos:

Crearemos el motor usando la función `create_engine`.

In [27]:
from sqlalchemy import create_engine
import pandas as pd


Para concetarnos a la base de datos despues de crear el motor, creamos una variable llamada `con` aplicando el metodo `connect()` a nuestro objeto:

In [82]:
engine = create_engine('sqlite:///Chinook.sqlite')
con = engine.connect()


Para consultar la base de datos, aplicamos el método `ejecute()` pasando un solo argumento , en este caso sera nuestro hola mundo:

Esto crea un objeto de resultados de SQLAlchemy que asignamos a nuestra variable `rs`.

In [78]:
rs = con.execute("SELECT * FROM Track")

Para convertir los objetos en resultados de un DATAFRAME , aplicamos el método `pd.DataFrame()` 

In [79]:
df = pd.DataFrame(rs.fetchall())
df.columns = rs.keys()

`fetchall` recupera todaslas filas, para recuperar la conexión ejecutamos:

In [80]:
con.close()

Luego podemos imprimir elencabezado del DataFrame para comprobar que neustros datos sean correctos.

In [76]:
print(df.head())

   0                                        1  2  ...       6         7     8
0  1  For Those About To Rock (We Salute You)  1  ...  343719  11170334  0.99
1  2                        Balls to the Wall  2  ...  342562   5510424  0.99
2  3                          Fast As a Shark  3  ...  230619   3990994  0.99
3  4                        Restless and Wild  3  ...  252051   4331779  0.99
4  5                     Princess of the Dawn  3  ...  375418   6290521  0.99

[5 rows x 9 columns]


Podemos ver que los nombres de las columnas no están correctamente definidos, para solucionar esto , antes de cerrar la conexción , configuramos el parametro `df.columns = rs.keys()`

In [81]:
print(df.head())

   TrackId                                     Name  ...     Bytes  UnitPrice
0        1  For Those About To Rock (We Salute You)  ...  11170334       0.99
1        2                        Balls to the Wall  ...   5510424       0.99
2        3                          Fast As a Shark  ...   3990994       0.99
3        4                        Restless and Wild  ...   4331779       0.99
4        5                     Princess of the Dawn  ...   6290521       0.99

[5 rows x 9 columns]


Una última nota, como ya sabemos que abrir archivos de texto sin formato podemos usar la construcción del administrador de contexto para abrir una conexión lo que nos ahorrara problemas para cerrar la conexión más tarde.

In [86]:
with engine.connect() as con:
  rs = con.execute("SELECT TrackId,Name,UnitPrice FROM Track")
  df = pd.DataFrame(rs.fetchmany(size=5))
  df.columns = rs.keys()

Hay otras diferencia que podemos notar entre el administrador de contexto y el código anterior, ahora tengo nombres de la columna Track todo lo que hacemos es importar esos nombres de las columnas.

Así es como seleccionamos columnas de interes para analizar, mientras que con `SELECT *` seleccionamos todas las columnas de nuestra tabla de datos.

Tmabién usamos el método `fetchmany` con el tamaño del argumento que es igual a 5, esto importa 5 filas en lugar de todas las filas.

In [87]:
df.head()

Unnamed: 0,TrackId,Name,UnitPrice
0,1,For Those About To Rock (We Salute You),0.99
1,2,Balls to the Wall,0.99
2,3,Fast As a Shark,0.99
3,4,Restless and Wild,0.99
4,5,Princess of the Dawn,0.99


## Filtrando los registros de su base de datos usando SQL's WHERE

Ahora podemos ejecutar una consulta SQL básica para seleccionar registros de cualquier tabla en nuestra base de datos y también podemos realizar personalizaciones de consultas simples para seleccionar columnas particulares y números de filas.


Hay un par de opciones de consulta SQL estándar que lo ayudarán en su viaje para convertirse en un ninja SQL.

A continuación veremos un ejemplo de como hacerlo:

In [89]:
# Crear motor
engine = create_engine('sqlite:///Chinook.sqlite')

# Abrir motor
# Hacer consulta SQL
# Asignar valores obtenidos a un DataFrame
# Mantener valores de columnas
with engine.connect() as con:
    rs = con.execute("SELECT * FROM Employee WHERE EmployeeId >= 3")
    df = pd.DataFrame(rs.fetchall())
    df.columns = rs.keys()

# Imprimir dataframe
print(df.head())

   EmployeeId  LastName  ...                Fax                     Email
0           3   Peacock  ...  +1 (403) 262-6712      jane@chinookcorp.com
1           4      Park  ...  +1 (403) 263-4289  margaret@chinookcorp.com
2           5   Johnson  ...   1 (780) 836-9543     steve@chinookcorp.com
3           6  Mitchell  ...  +1 (403) 246-9899   michael@chinookcorp.com
4           7      King  ...  +1 (403) 456-8485    robert@chinookcorp.com

[5 rows x 15 columns]


## Ordenar registros SQL con ORDER BY

También podemos ordenar los resultados de una consulta SQL. Por ejemplo, si desea obtener todos los registros de la tabla `Employee` de la base de datos Chinook y ordenarlos en orden creciente por la columna `Birthdate`, podemos hacerlo con la siguiente consulta:

In [91]:
# Crear motor
engine = create_engine('sqlite:///Chinook.sqlite')

# Consulta con administrador de contexto )
with engine.connect() as con:
    rs = con.execute("SELECT * FROM Customer ORDER BY SupportRepId")
    df = pd.DataFrame(rs.fetchall())

    # Establecer los nombres de columna del DataFrame
    df.columns = rs.keys()

# Imprimir DataFrame
print(df.head())


   CustomerId FirstName  ...                          Email SupportRepId
0           1      Luís  ...           luisg@embraer.com.br            3
1           3  François  ...            ftremblay@gmail.com            3
2          12   Roberto  ...  roberto.almeida@riotur.gov.br            3
3          15  Jennifer  ...            jenniferp@rogers.ca            3
4          18  Michelle  ...              michelleb@aol.com            3

[5 rows x 13 columns]


Ahora deseamos obtener todos los registros de la tabla Cliente de la base de datos Chinook y ordenarlos en orden creciente por la columna SupportRepId, puede hacerlo con la siguiente consulta:

In [92]:
# Crear motor
engine = create_engine('sqlite:///Chinook.sqlite')

# Consulta con administrador de contexto "SELECT * FROM Employee ORDER BY BirthDate")
with engine.connect() as con:
    rs = con.execute("SELECT * FROM Employee ORDER BY BirthDate")
    df = pd.DataFrame(rs.fetchall())

    # Establecer los nombres de columna del DataFrame
    df.columns = rs.keys()

# Imprimir DataFrame
print(df.head())


   EmployeeId  LastName  ...                Fax                     Email
0           4      Park  ...  +1 (403) 263-4289  margaret@chinookcorp.com
1           2   Edwards  ...  +1 (403) 262-3322     nancy@chinookcorp.com
2           1     Adams  ...  +1 (780) 428-3457    andrew@chinookcorp.com
3           5   Johnson  ...   1 (780) 836-9543     steve@chinookcorp.com
4           8  Callahan  ...  +1 (403) 467-8772     laura@chinookcorp.com

[5 rows x 15 columns]
