# After Class - Un paso más...SQL Database y API con Python

In [None]:
# pip install pyodbc

In [None]:
# pip install SQLAlchemy

In [None]:
# pip install requests

In [None]:
# pip install psycopg2

In [None]:
import pandas as pd
import requests
import json
import pyodbc
import sqlalchemy

In [None]:
from sqlalchemy import create_engine, inspect, MetaData, Table
from sqlalchemy.engine.url import URL

In [None]:
pd.set_option('display.max_columns', None)

In [None]:
print(f"Versión pyodbc: {pyodbc.version}")
print(f"Versión sqlalchemy: {sqlalchemy.__version__}")
print(f"Versión requests: {requests.__version__}")

## Extrayendo data de una DATABASE

[Documentación pyodbc](https://github.com/mkleehammer/pyodbc/wiki)

[Documentación sqlalchemy](https://docs.sqlalchemy.org/en/14/tutorial/engine.html)

En el mundo de Python, existen varias herramientas excelentes que podemos usar cuando trabajamos con bases de datos. Uno de ellos es SQLAlchemy. 

SQLAlchemy nos permitirá generar consultas SQL escribiendo código Python. 

SQLAlchemy tiene dos componentes principales:
1. CORE o parte "central": se centra en el modelo relacional de la base de datos. 
2. Modelo Relacional de Objetos (ORM): se centra en los modelos de datos y las clases que como programador creamos.

**Para saber más sobre esto:** [Introduction to SQLAlchemy](https://www.oreilly.com/library/view/essential-sqlalchemy-2nd/9781491916544/preface02.html)

Existen diferentes tipos de bases de datos y cada uno tiene sus propias particularidades y capacidades únicas. Por lo general, te encontrarás con SQLite, PostgreSQL, MySQL, Microsoft SQL Server y Oracle. 

SQLAlchemy proporciona una forma de operar en todos estos tipos de bases de datos de manera coherente.

   - **CONSIDERACIONES PARA LA EXTRACCIÓN DE LOS DATOS CON SQLALCHEMY:**

Para conectarnos a una base de datos, necesitamos una forma de hablar con ella, y un **motor (engine)** proporciona esa interfaz común. Para crear un motor, importamos la función `create_engine()` de sqlalchemy, pasando como argumento una **cadena de conexión** que proporciona los detalles necesarios para conectarse a una base de datos. 

Una vez que tenemos un motor, se realiza la conexión usando el método `.connect()` en el motor. 

Vale la pena señalar que SQLAlchemy no hará la conexión hasta que le demos algo de trabajo para que se ejecute. 

Resumiendo: 

    motor --> interfaz de comunicación
    cadena de conexión -->  detalles necesarios para encontrar y conectarse a la base de datos

[Fine Grained Reflection with Inspector](https://docs.sqlalchemy.org/en/14/core/reflection.html#fine-grained-reflection-with-inspector)

Veamos cómo se crea una URL para conectar a una base de datos, empleando el método `.create()` a la clase `URL` de SQLAlchemy:

### Estableciendo la URL de la base de datos

La forma típica de una URL de base de datos es:

        dialect+driver://username:password@host:port/database
        
Se puede hacer de 2 maneras:

1. Con la escritura del string en la forma que se muestra arriba
2. Construirla mediante el método `creater()` de la clase `URL`

In [None]:
URL.create?

Ejemplo desde [pythonsheets](https://www.pythonsheets.com/notes/python-sqlalchemy.html)

In [None]:
# Ejemplo Postgresql Database (a manera ilustrativa, solo funciona con una base de datos postgresql que se encuentre funcionando localmente)
# Para postgresql se puede o no especificar el driver psycopg2, ya que este es el que utiliza por default
drivername = 'postgresql'  #+psycopg2'
username = 'postgres'   # Cambiar por la propia 
password = 'xxxxx'  # Cambiar por la propia
host = '127.0.0.1' # 'localhost' (lo mismo) 
port = '5433'
database='postgres'

postgres_db = URL.create(drivername=drivername,
                        username=username,
                        password=password,
                        host=host,
                        port=port,
                        database=database
                        )
print(postgres_db)

In [None]:
# Ejemplo SQLite Database
drivername = 'sqlite'
database = 'data_sql/census.sqlite' 

print(URL.create(drivername=drivername,
                 database=database))

### Encendiendo el motor

La función `create_engine()` produce un objeto **Engine** basado en una URL. 

Para ampliar: [ver](https://docs.sqlalchemy.org/en/14/core/engines.html#database-urls)

In [None]:
engine_db = create_engine(postgres_db)
engine_db.connect()

In [None]:
# Engine mediante URI
conexion_string = 'sqlite:///data_sql/census.sqlite'
engine = create_engine(conexion_string)
conn = engine.connect()

In [None]:
conn

### Tablas de una base de datos

Veamos las tablas que contine la base de datos con el método `.get_table_names()` de la clase `inspect()`:

`.get_table_names() ` devuelve todos los nombres de tablas. Se espera que los nombres sean solo tablas reales, no vistas.

In [None]:
insp_db = inspect(engine_db)
insp_db.get_table_names()

In [None]:
insp = inspect(engine)
insp.get_table_names()

In [None]:
# En versiones anteriores a 1.4
engine.table_names()

Obtener las tablas desde la metadata con la clase `MetaData()`:

In [None]:
meta = MetaData(conn)
meta.reflect(views=False)
list(meta.tables.keys())

Obtener detalles de los campos de una tabla:

In [None]:
table = 'census'
insp.get_columns(table)

### Leer una tabla

Una vez que sepamos en qué tabla queremos trabajar, necesitamos una forma de acceder a esa tabla con Python. Para hacer eso, podemos usar un proceso útil llamado reflexión, que lee la base de datos y construye un objeto Table que podemos usar en nuestro código; mediante la clase `Table()`.

La reflexión se trabaja mediante las clases `MetaData()` y `Table()`. 

El objeto [MetaData](https://docs.sqlalchemy.org/en/14/core/metadata.html#sqlalchemy.schema.MetaData) es un catálogo que almacena información de la base de datos, como tablas, para que no tengamos que seguir buscándolas. 

Para reflejar la tabla, inicializamos un objeto MetaData. 

El objeto SQLAlchemy [Table](https://docs.sqlalchemy.org/en/14/core/metadata.html#sqlalchemy.schema.SchemaItem), recibe el nombre de la tabla y la instancia de metadatos, usando el motor; que nos permite ver los nombres de las columnas:

In [None]:
table = 'census'
metadata = MetaData()
census = Table(table, metadata, 
               autoload_with=engine
              )
print(repr(census))
# Table('census', MetaData(), schema=None)

Obtenemos las columnas de la tabla "census", mediante `.columns.keys()`:

In [None]:
census.columns.keys()

In [None]:
census.columns.values()

Con SQLAlchemy puedes seleccionar datos, insertar datos nuevos, actualizar datos existentes y eliminarlos. También se puede utilizar para crear, modificar y eliminar tablas y columnas. 

Pero nos enfocaremos en la extracción de datos empleando consultas (queries) mediante la instrucción SELECT de SQL.

    SINTAXIS GENERAL SQL: "SELECT columns FROM table CONDITIONS;"
    
https://www.geeksforgeeks.org/sql-ddl-dql-dml-dcl-tcl-commands/

Extraer todas las columnas de la tabla "census", con SQLAlchemy, conectando a la base de datos con `connection.execute(query)` y empleando el método `.fetchall()`:

In [None]:
columns = '*'
table = 'census'
conditions = ';'

query = f'''
        SELECT {columns}
        FROM {table}
        {conditions}
        '''
print(query)

In [None]:
result_proxy = conn.execute(query)
results_set = result_proxy.fetchall()
results_set[:5]

Obtuvimos los datos, pero no los nombres de las columnas o campos.

Podemos obtenerlas, aplicando el método `.keys()` a result_proxy:

In [None]:
# Nombres de columnas
cols = result_proxy.keys()
cols

In [None]:
data = pd.DataFrame(results_set, columns=cols)
data.head()

In [None]:
%%timeit
pd.read_sql_table(table, conn)

In [None]:
%%timeit
columns = '*'
table = 'census'
conditions = ';'

query = f'''
        SELECT {columns}
        FROM {table}
        {conditions}
        '''

result_proxy = conn.execute(query)
results_set = result_proxy.fetchall()

# Nombres de columnas
cols = result_proxy.keys()

pd.DataFrame(results_set, columns=cols)

Pandas nos da una manera muy fácil de acceder a una tabla desde una base de datos con `pd.read_sql_table()`; pasando como parámetros el nombre de la tabla y la conexión a la base de datos:

Otra manera más intuitiva es emplear la clase `select()` que provee SQLAlchemy:

In [None]:
from sqlalchemy import select

In [None]:
otra_query = select(census)  # equivalente a "SELECT * FROM census"
result_proxy = conn.execute(otra_query)
data = result_proxy.fetchall()
cols = result_proxy.keys()
pd.DataFrame(data, columns=cols)

In [None]:
%%timeit
otra_query = select(census)  # equivalente a "SELECT * FROM census"
result_proxy = conn.execute(otra_query)
data = result_proxy.fetchall()
cols = result_proxy.keys()
pd.DataFrame(data, columns=cols)

### Uso del `where` y las conjunciones `and_()`, `or_()` y `not_()`

In [None]:
from sqlalchemy import and_, or_, not_

Obtener los registros de la ciudad de New York:

In [None]:
# Crear la sentencia de la query
query_0 = select(census)

# Agreguemos el where para filtrar los resultados solo a los de Nueva York
query = query_0.where(census.columns.state == 'New York')

result_proxy= conn.execute(query)
data_results = result_proxy.fetchall()
data_results[:5]

In [None]:
pob_newyork = pd.DataFrame(data_results, columns=result_proxy.keys())
pob_newyork

¿Cuál es la edad más común entre hombres y mujeres en Nueva York en el 2008?

In [None]:
pob_newyork.groupby('sex')['pop2008'].max()

Obtener los registros de personas que tienen exactamente 20, 30 o 40 años:

In [None]:
query = query_0.where(census.columns.age.in_([20, 30, 40]))
results = conn.execute(query)
age_df = pd.DataFrame(results, columns=cols)
age_df.head()

Registros para personas que viven en los estados 'New York', 'California', 'Texas'

In [None]:
states = ['New York', 'California', 'Texas']
query = query_0.where(census.c.state.in_(states))
results = conn.execute(query)
pd.DataFrame(results, columns=cols)

Obtener el conjunto de registros para las personas en Nueva York que tienen 21 o 37 años

In [None]:
query = query_0.where(
                    and_(census.c.state == 'New York',
                         or_(census.c.age == 21,
                             census.c.age == 37
                             )
                         )
    )
results = conn.execute(query)
pd.DataFrame(results, columns=cols)

SQLAlchemy tiene otros método útiles como `.groupby()`, `.order_by()`, `desc()`, funciones `.count()`, `.sum()`, etc.

## Extrayendo data de una API

<span style="background-color:black; color:yellow; font-size:1.4em">**Nota:** En este notebook se están usando las credenciales de la Tutora, creen sus propias credenciales, en algunos días ya no estarán funcionando.</span>

[Documentación requests](https://docs.python-requests.org/en/latest/)

![img](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRX3i6lgYb7SzKjqCbn7xs-CzN_k2Xu3jwt0DGSeLfB6zj1pMGMCfpRk6kCvdg1ke4yCTk&usqp=CAU)
![img](https://ec.europa.eu/eurostat/documents/6997343/6999619/REST_REQUEST_2_1.png/d0a400ad-a8cb-4b4a-b9ce-15ae70334665?t=1521113967130)

### Datamuse

https://www.datamuse.com/api/

La API de Datamuse es un motor de búsqueda de palabras para desarrolladores.

Provee palabras que coincidan con un conjunto determinado de restricciones y que probablemente estén en un contexto determinado. 

Puede especificar una amplia variedad de restricciones de significado, ortografía, sonido y vocabulario en sus consultas, en cualquier combinación.

In [None]:
params = {"rel_rhy": "network"}

url = "https://api.datamuse.com/words"

headers = {
    "accept": "application/json"
}

response = requests.get(
                        url,
                        headers=headers, 
                        params = params
)

response.json()[:5]

In [None]:
pd.DataFrame(response.json())

### Nager Date

https://date.nager.at/swagger/index.html

Paises que disponen de data en Nager Date:

In [None]:
url = 'https://date.nager.at/api/v2/AvailableCountries'

body = {
    "key": "string",
    "value": "string"
}

headers = {
    "accept": "text/plain"
}

response = requests.get(
                        url,
                        headers=headers, 
                        data=json.dumps(body)
)

data_api = pd.DataFrame(response.json())
data_api.head()

In [None]:
countryCode = 'AR'
url = f"https://date.nager.at/api/v3/CountryInfo/{countryCode}"

headers = {
    "accept": "application/json"
}

response = requests.get(
                        url,
                        headers=headers, 
)

data_AR_api = pd.DataFrame(response.json())
data_AR_api

In [None]:
pd.json_normalize(response.json(), 
                 record_path='borders')

Fines de semanas largos en Argentina en el 2021

In [None]:
year = 2021
url = f'https://date.nager.at/api/v2/LongWeekend/{year}/{countryCode}'
response = requests.get(
                        url,
                        headers=headers, 
)
pd.DataFrame(response.json())

In [None]:
year= '2021'
countryCode = 'AR'

api_url = f'https://date.nager.at/api/v3/PublicHolidays/{year}/{countryCode}'

response = requests.get(api_url)

data = response.json()
pd.DataFrame(data)

### Yelp

https://www.yelp.com/developers/documentation/v3/get_started

In [None]:
Client_ID = 'your_client_id'
API_Key = 'your_api_key'

url = 'https://api.yelp.com/v3/businesses/search'

headers = {'Authorization': 'Bearer {}'.format(API_Key)}

# Parámetros
neighborhoods = '' #'Midtown West'
location = neighborhoods + ', Manhattan, NY'
term = "Hospital"  
search_limit = 50
offset = 50
sort_by = 'distance'

params = {
        'location': location.replace(' ', '+'),
        'term' : term,
        'limit': search_limit,
        'offset': offset,
#         'categories': categories,
        'sorty_by': sort_by
        }

response = requests.get(
                        url,
                        headers=headers, 
                        params=params
)

data = response.json()
df = pd.json_normalize(data['businesses'], sep='_')
df.head()

In [None]:
df.shape

#### Desanidar la columna "categories"

In [None]:
# ¿Qué tiene la columna "categories"
df['categories'][0]

In [None]:
# Un manera, pero solo trayendo las keys que se especifiquen en meta
df_desanidado = pd.json_normalize(data['businesses'],
                                  meta=['id', 'alias', 'name', 'image_url', 'is_closed', 'url', 'review_count'],
                                  record_path=["categories"],
                                  record_prefix='categ_')
df_desanidado.head()                

Otra manera, usando `.explode()` de pandas creará un registro para valor de la lista que contiene las celdas de la columna "categories":

Nota: pero luego tendríamos que trabajar la columan "categories" para acceder a los avlores de los diccionarios.
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.html

In [None]:
df_explode = df.explode('categories')
df_explode.head()

In [None]:
# Crear una columna con los alias de las categorias
df_explode['categories_alias'] = df_explode['categories'].apply(lambda x: x['alias'])

# Crear una columna con los itulos de las categorias
df_explode['categories_title'] = df_explode['categories'].apply(lambda x: x['title'])

# Borrar la columna "categories" para no tener la data repetida
df_explode.drop(columns=['categories'], inplace=True)
df_explode.head()

### Spotify

Obtener acceso a la APi desde https://developer.spotify.com/dashboard/applications

https://developer.spotify.com/documentation/web-api/

https://developer.spotify.com/documentation/web-api/reference/#/

In [None]:
CLIENT_ID = 'your_client_id' 
CLIENT_SECRET = 'your_client_secret'

In [None]:
# ===============================
# Obtención del access_token
# ===============================
AUTH_URL = 'https://accounts.spotify.com/api/token'

auth_response = requests.post(AUTH_URL, 
                              {
                                  'grant_type': 'client_credentials',
                                  'client_id': CLIENT_ID,
                                  'client_secret': CLIENT_SECRET,
                                  })
auth_response_data = auth_response.json()
access_token = auth_response_data['access_token']

# ===============================
# Extracción de los datos 
# ===============================
headers = {
    'Authorization': 'Bearer {token}'.format(token=access_token)
}

BASE_URL = 'https://api.spotify.com/v1/'
resource = 'audio-features/'
track_id = '6y0igZArWVi6Iz0rj35c1Y'

url_api = BASE_URL + resource + track_id

response = requests.get(url_api, 
                 headers=headers)
audio_data = response.json()
audio_data

In [None]:
# ===============================
# Extracción de los datos 
# ===============================

headers = {
    'Authorization': 'Bearer {token}'.format(token=access_token)
}

BASE_URL = 'https://api.spotify.com/v1/'
resource = 'albums/'
album_id = '4aawyAB9vmqN3uQ7FjRGTy'

URL = BASE_URL + resource + album_id

r = requests.get(URL, 
                 headers=headers
                )
data = r.json()
data

In [None]:
pd.json_normalize(data)

In [None]:
album_df = pd.DataFrame(data['tracks']['items'])
album_df.head(3)

## Referencias

Database

- [pythonsheets SQLAlchemy](https://www.pythonsheets.com/notes/python-sqlalchemy.html)
- [Documentación SQLAlchemy](https://docs.sqlalchemy.org/en/13/dialects/)
- [Lesson 1](https://datacarpentry.org/python-ecology-lesson-es/09-working-with-sql/index.html)
- [Lesson 2](https://pynative.com/python-database-programming-exercise-with-solution/)
- [Lesson 2](https://learnsql.com/blog/ways-to-practice-sql-online/)
- [PEP 249 -- Python Database API Specification v2.0](https://www.python.org/dev/peps/pep-0249/#connection-methods)
- https://www.geeksforgeeks.org/sql-ddl-dql-dml-dcl-tcl-commands/

API 

- [Documentación requests](https://docs.python-requests.org/en/latest/)
- [Datamuse](https://www.datamuse.com/api/)
- [Nager Date](https://date.nager.at/swagger/index.html)
- [Yelp API](https://www.yelp.com/developers/documentation/v3/get_started)
- Obtener acceso a la Spotify APi desde https://developer.spotify.com/dashboard/applications
- https://developer.spotify.com/documentation/web-api/
- https://developer.spotify.com/documentation/web-api/reference/#/
- https://console.developers.google.com/
- [Google APIs Explorer](https://developers.google.com/apis-explorer)
- [APIs públicas](https://github.com/public-apis/public-apis)
- [Series Temporales Datos Argentina](https://datosgobar.github.io/series-tiempo-ar-call-generator/)

<span style="background-color:black; color:yellow; font-size:1.4em">¡Espero les sea muy útil el material...Saludos!</span>