# **CODERHOUSE DS - 22745**
## Clase 26. Data Acquisition II

## Objetivos

1. Acceder a bases de datos de sql haciendo uso de la librería `pandas`.
2. Leer archivos `JSON` con `pandas`.
3. Usar APIs.

## 1. Información en bases de datos `SQL`

En el módulo anterior me mostró como la información se puede encontrar en diferentes tipos de archivos y configuraciones de almacenamiento, aquí es relevante mencionar que lo más frecuente es encontrar información disponible en bases de datos relacionales, a las que es posible acceder mediante conexiones ODBC y sistemas de manejo tales como MySQL o SQL Server entre otros.

### 1.1. Paquete `sqlite3`

El paquete `sqlite3` permite realizar conexiones a las bases de datos de `SQLite` el cúal es un motor de base de datos basado en el lenguaje de programación C. Es posible convertir la información contenida en los esquemas de la base de datos a objetios de tipo `Dataframe` dentro del entorno de Python.<br>

A continuación realizaremos la importación de los paquetes `pandas` con su alias más común y de `sqlite3` sin alias:

In [3]:
# Importe al notebook las librerías pandas y sqlite3
import pandas as pd
import sqlite3

Una vez que el entorno de trabajo tiene cargado los paquetes de utilidad procederemos a realizar la conexión con una base de datos. En este caso emplearemos la base de datos `nba_salary.sqlite` disponible en la carpeta del curso. Para lograrlo lo ideal será realizar una estructura como la mostrada a continuación:
~~~ python
#Creación de la conexion
con = sqlite3.connect("ruta_archivo")
~~~
~~~ sql
--Definición de las sentencias SQL
sql = SELECT * FROM sqlite_master  --> trae todo el contenido dento del esquema cargado en la conexión
~~~ 
~~~ python
# Lectura a Dataframe de la query
df = pd.read_sql_query(sql,con)
~~~ 

In [4]:
# Cree la conexión a la base de datos
con = sqlite3.connect("nba_salary.sqlite")

In [5]:
# Cree el objeto de tipo DataFrame con el resultado de la query
query = "SELECT * from sqlite_master"
df = pd.read_sql_query(query, con)
df

Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,NBA_season1718_salary,NBA_season1718_salary,2,CREATE TABLE `NBA_season1718_salary` (\n `X1`...
1,table,Seasons_Stats,Seasons_Stats,8,"CREATE TABLE `Seasons_Stats` (\n `X1` REAL,\n..."


Una vez que se ha inspeccionado el objeto de base de datos, se desea acceder a una de las dos tablas existentes, en este caso la tabla `Seasons_Stats`. Realice la consulta (query) usando una sentencia de SQL simple para construir un nuevo objeto DataFrame `df_1` con esta data.

In [6]:
# Cree el nuevo objeto df_1 con los datos de la tabla Seasons_Stats
df_1 = pd.read_sql_query("SELECT * FROM Seasons_Stats", con)
df_1

Unnamed: 0,X1,Year,Player,Pos,Age,Tm,G,GS,MP,PER,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
0,0.0,1950.0,Curly Armstrong,G-F,31.0,FTW,63.0,,,,...,0.705,,,,176.0,,,,217.0,458.0
1,1.0,1950.0,Cliff Barker,SG,29.0,INO,49.0,,,,...,0.708,,,,109.0,,,,99.0,279.0
2,2.0,1950.0,Leo Barnhorst,SF,25.0,CHS,67.0,,,,...,0.698,,,,140.0,,,,192.0,438.0
3,3.0,1950.0,Ed Bartels,F,24.0,TOT,15.0,,,,...,0.559,,,,20.0,,,,29.0,63.0
4,4.0,1950.0,Ed Bartels,F,24.0,DNN,13.0,,,,...,0.548,,,,20.0,,,,27.0,59.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24686,24686.0,2017.0,Cody Zeller,PF,24.0,CHO,62.0,,1725.0,16.7,...,0.679,,,405.0,99.0,,,,189.0,639.0
24687,24687.0,2017.0,Tyler Zeller,C,27.0,BOS,51.0,,525.0,13.0,...,0.564,,,124.0,42.0,,,,61.0,178.0
24688,24688.0,2017.0,Stephen Zimmerman,C,20.0,ORL,19.0,0.0,108.0,7.3,...,0.600,,,35.0,4.0,,,,17.0,23.0
24689,24689.0,2017.0,Paul Zipser,SF,22.0,CHI,44.0,,843.0,6.9,...,0.775,,,125.0,36.0,,,,78.0,240.0


### 1.2. Paquete `sqlalchemy`

El paquete `sqlalchemy` permite acceder a virtualmente cualquier tipo de base de datos. Al igual que lo mostrado anteriomente, es necesario generar una conexión a la ruta de la base de datos de nuestro interés, incluyendo el tipo de motor de base de datos que sea de interés.

Una estructura útil para emplear esta herramienta se muestra a continuación:
~~~ python
import sqlachemy as db
engine = db.create_engine('motor:///ruta_base_datos')
connection = engine.connect()
~~~

Utilice la estructura mostrada anteriormente para crear la conexión usando la librería `sqlalchemy` y la función `read_sql_query` del paquete `pandas` para crear un nuevo objeto Dataframe llamado df_sqlalchemy que contenga todos los datos de la tabla `NBA_season1718_salary`.

In [7]:
# Escriba aquí su código
import sqlalchemy as db

engine = db.create_engine("sqlite:///nba_salary.sqlite")
connection = engine.connect()

In [8]:
pd.read_sql_query("SELECT * FROM NBA_season1718_salary", connection)

Unnamed: 0,X1,Player,Tm,season17_18
0,1.0,Stephen Curry,GSW,34682550.0
1,2.0,LeBron James,CLE,33285709.0
2,3.0,Paul Millsap,DEN,31269231.0
3,4.0,Gordon Hayward,BOS,29727900.0
4,5.0,Blake Griffin,DET,29512900.0
...,...,...,...,...
568,569.0,Quinn Cook,NOP,25000.0
569,570.0,Chris Johnson,HOU,25000.0
570,571.0,Beno Udrih,DET,25000.0
571,572.0,Joel Bolomboy,MIL,22248.0


### 1.3 Desafío Genérico

1. Leer el dataset de utilizado para extraer solo los jugadores con mayor salario que 10 millones de dólares.

2. Extraer de esos jugadores las estadísticas correspondientes a ese año que provienen de la tabla Season_Stats del año 2017.

3. Calcular de la tabla Season_Stats el promedio total de puntos PTS, asistencias AST y faltas personales PF. 


In [9]:
con = sqlite3.connect("nba_salary.sqlite")
query = "SELECT * from sqlite_master"
df = pd.read_sql_query(query, con)
df

Unnamed: 0,type,name,tbl_name,rootpage,sql
0,table,NBA_season1718_salary,NBA_season1718_salary,2,CREATE TABLE `NBA_season1718_salary` (\n `X1`...
1,table,Seasons_Stats,Seasons_Stats,8,"CREATE TABLE `Seasons_Stats` (\n `X1` REAL,\n..."


In [10]:
# Ejercicio 1
query = "SELECT * from NBA_season1718_salary WHERE season17_18 > 10000000"
df = pd.read_sql_query(query, con)
df

Unnamed: 0,X1,Player,Tm,season17_18
0,1.0,Stephen Curry,GSW,34682550.0
1,2.0,LeBron James,CLE,33285709.0
2,3.0,Paul Millsap,DEN,31269231.0
3,4.0,Gordon Hayward,BOS,29727900.0
4,5.0,Blake Griffin,DET,29512900.0
...,...,...,...,...
117,118.0,Mirza Teletovic,MIL,10500000.0
118,119.0,Bojan Bogdanovic,IND,10500000.0
119,120.0,Jon Leuer,DET,10497319.0
120,121.0,Iman Shumpert,SAC,10337079.0


In [11]:
# Ejercicio 2
query_1 = "SELECT * from NBA_season1718_salary"
df_1 = pd.read_sql_query(query_1, con)
df_1

Unnamed: 0,X1,Player,Tm,season17_18
0,1.0,Stephen Curry,GSW,34682550.0
1,2.0,LeBron James,CLE,33285709.0
2,3.0,Paul Millsap,DEN,31269231.0
3,4.0,Gordon Hayward,BOS,29727900.0
4,5.0,Blake Griffin,DET,29512900.0
...,...,...,...,...
568,569.0,Quinn Cook,NOP,25000.0
569,570.0,Chris Johnson,HOU,25000.0
570,571.0,Beno Udrih,DET,25000.0
571,572.0,Joel Bolomboy,MIL,22248.0


In [12]:
query_2 = "SELECT * from Seasons_Stats"
df_2 = pd.read_sql_query(query_2, con)
df_2

Unnamed: 0,X1,Year,Player,Pos,Age,Tm,G,GS,MP,PER,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
0,0.0,1950.0,Curly Armstrong,G-F,31.0,FTW,63.0,,,,...,0.705,,,,176.0,,,,217.0,458.0
1,1.0,1950.0,Cliff Barker,SG,29.0,INO,49.0,,,,...,0.708,,,,109.0,,,,99.0,279.0
2,2.0,1950.0,Leo Barnhorst,SF,25.0,CHS,67.0,,,,...,0.698,,,,140.0,,,,192.0,438.0
3,3.0,1950.0,Ed Bartels,F,24.0,TOT,15.0,,,,...,0.559,,,,20.0,,,,29.0,63.0
4,4.0,1950.0,Ed Bartels,F,24.0,DNN,13.0,,,,...,0.548,,,,20.0,,,,27.0,59.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24686,24686.0,2017.0,Cody Zeller,PF,24.0,CHO,62.0,,1725.0,16.7,...,0.679,,,405.0,99.0,,,,189.0,639.0
24687,24687.0,2017.0,Tyler Zeller,C,27.0,BOS,51.0,,525.0,13.0,...,0.564,,,124.0,42.0,,,,61.0,178.0
24688,24688.0,2017.0,Stephen Zimmerman,C,20.0,ORL,19.0,0.0,108.0,7.3,...,0.600,,,35.0,4.0,,,,17.0,23.0
24689,24689.0,2017.0,Paul Zipser,SF,22.0,CHI,44.0,,843.0,6.9,...,0.775,,,125.0,36.0,,,,78.0,240.0


In [13]:
jj = df_1.Player[df_1.season17_18 > 10000000]
df_2[(df_2.Player.isin(jj)) & (df_2.Year == 2017)]

Unnamed: 0,X1,Year,Player,Pos,Age,Tm,G,GS,MP,PER,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
24100,24100.0,2017.0,Steven Adams,C,23.0,OKC,80.0,,2389.0,16.5,...,0.611,,,615.0,86.0,,,,195.0,905.0
24104,24104.0,2017.0,LaMarcus Aldridge,PF,31.0,SAS,72.0,,2335.0,18.6,...,0.812,,,524.0,139.0,,,,158.0,1243.0
24114,24114.0,2017.0,Ryan Anderson,PF,28.0,HOU,72.0,,2116.0,13.5,...,0.860,,,330.0,68.0,,,,142.0,979.0
24115,24115.0,2017.0,Giannis Antetokounmpo,SF,22.0,MIL,80.0,,2845.0,26.1,...,0.770,,,700.0,434.0,,,,246.0,1832.0
24116,24116.0,2017.0,Carmelo Anthony,SF,32.0,NYK,74.0,,2538.0,17.9,...,0.833,,,436.0,213.0,,,,198.0,1659.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24654,24654.0,2017.0,Russell Westbrook,PG,28.0,OKC,81.0,,2802.0,30.6,...,0.845,,,864.0,840.0,,,,190.0,2558.0
24657,24657.0,2017.0,Hassan Whiteside,C,27.0,MIA,77.0,,2513.0,22.6,...,0.628,,,1088.0,57.0,,,,226.0,1309.0
24670,24670.0,2017.0,Marvin Williams,PF,30.0,CHO,76.0,,2295.0,13.7,...,0.873,,,498.0,106.0,,,,134.0,849.0
24685,24685.0,2017.0,Thaddeus Young,PF,28.0,IND,74.0,,2237.0,14.9,...,0.523,,,449.0,122.0,,,,135.0,814.0


In [14]:
# Ejercicio 3
df_2.loc[:, ["PTS", "AST", "PF"]].mean()

PTS    510.116350
AST    114.852623
PF     116.339222
dtype: float64

In [15]:
df_2.describe()

Unnamed: 0,X1,Year,Age,G,GS,MP,PER,TS%,3PAr,FTr,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
count,24691.0,24624.0,24616.0,24624.0,6247.0,24138.0,24101.0,24538.0,3452.0,24525.0,...,23766.0,1533.0,735.0,24312.0,24624.0,1897.0,3691.0,930.0,24624.0,24624.0
mean,12345.0,1992.594989,26.664405,50.83711,0.173203,1209.720317,12.479071,0.493001,0.008401,0.325455,...,0.719279,0.437052,0.489796,224.637381,114.852623,0.406431,0.381198,0.448387,116.339222,510.11635
std,7127.822084,17.429594,3.841892,26.496161,0.378453,941.146575,6.039014,0.094469,0.091284,0.218971,...,0.141824,0.496184,0.500236,228.190203,135.863913,0.491296,0.485747,0.497597,84.791873,492.922981
min,0.0,1950.0,18.0,1.0,0.0,0.0,-90.6,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,6172.5,1981.0,24.0,27.0,0.0,340.0,9.8,0.458,0.0,0.208,...,0.657,0.0,0.0,51.0,19.0,0.0,0.0,0.0,39.0,106.0
50%,12345.0,1996.0,26.0,58.0,0.0,1053.0,12.7,0.506,0.0,0.296,...,0.743,0.0,0.0,159.0,68.0,0.0,0.0,0.0,109.0,364.0
75%,18517.5,2007.0,29.0,75.0,0.0,1971.0,15.6,0.544,0.0,0.4,...,0.808,1.0,1.0,322.0,160.0,1.0,1.0,1.0,182.0,778.0
max,24690.0,2017.0,44.0,88.0,1.0,3882.0,129.1,1.136,1.0,6.0,...,1.0,1.0,1.0,2149.0,1164.0,1.0,1.0,1.0,386.0,4029.0


## 2. Javascript Object Notation JSON

El tipo de archivos `json` son muy comunes en los entornos de ciencia de datos e inteligencia de negocio. Se trata de bases de datos semi-estructuradas que permiten cierta flexibilidad en los contenidos de sus esquemas y son ampliamente utilizadas para enviar información mediante API's.

### 2.1. Lectura de archivos `json`
Python dentro de su concepción tiene un paquete nativo para manipular información en formato de notación de javascript, se le conoce como el paquete `json`. A continuación se muestra una codificación útil para importar al entorno de Python un archivo de este tipo:

~~~ python
import json
file = open('ruta_archivo')
data = json.load(file)
~~~

Realice a continuación la carga de la información del archivo `ejemplo_1.json` en una variable de nombre `data`.

In [16]:
import json

file = open("ejemplo_1.json")
data = json.load(file)
data

{'Duration': {'0': 60, '1': 60, '2': 60, '3': 45, '4': 45, '5': 60},
 'Pulse': {'0': 110, '1': 117, '2': 103, '3': 109, '4': 117, '5': 102},
 'Maxpulse': {'0': 130, '1': 145, '2': 135, '3': 175, '4': 148, '5': 127},
 'Calories': {'0': 409, '1': 479, '2': 340, '3': 282, '4': 406, '5': 300}}

### 2.2. Transformación de strings a formato `json`

Una de las tareas más comunes de un profesional de datos es realizar transacciones de información con herramientas computacionales en la nube, estas transacciones normalmente requieren de una entrada de información en formato JSON. Para esto es conveniente saber transformar un texto que se asemeje a un diccionario en el formato adecuado.

Con un ejemplo usando al famoso personaje Homero Simpson, se creará un diccionario de su información sociodemográfica y luego se accederá para ver la variedad de elementos disponibles.

In [19]:
# Crear un string con la información personal de Homero para procesarse como un JSON
texto = """
{ "Nombre": "Homero J. Simpson",
    "Dirección": "Av. Siempreviva 742",
    "Hijos": ["Bart Simpson", "Lisa Simpson", "Marge Simpson"],
    "Profesión": "Inspector nuclear"    
}"""

In [20]:
# Transformación a JSON e inspección de elementos
dicc = json.loads(texto)
dicc

{'Nombre': 'Homero J. Simpson',
 'Dirección': 'Av. Siempreviva 742',
 'Hijos': ['Bart Simpson', 'Lisa Simpson', 'Marge Simpson'],
 'Profesión': 'Inspector nuclear'}

## 3. Interfaz de programación de aplicaciones

Las API's son interfaces que permiten la comunicación entre dos sistemas distintos permitiendo agregar diversas funciones a sitios web y aplicaciones y permite definir como las aplicaciones se comunican con otros programas.

Se emplean como herramientas para obtener datos de una aplicación sin conocer los detalles de la bases de datos.

In [22]:
# Importación de la librería
import requests

url = "https://raw.githubusercontent.com/bttmly/nba/master/data/teams.json"

In [23]:
# Creacion de objeto request
web = requests.get(url)

In [24]:
# Transformación a DataFrame
web

<Response [200]>

In [25]:
pd.DataFrame.from_dict(web.json())

Unnamed: 0,teamId,abbreviation,teamName,simpleName,location
0,1610612737,ATL,Atlanta Hawks,Hawks,Atlanta
1,1610612738,BOS,Boston Celtics,Celtics,Boston
2,1610612751,BKN,Brooklyn Nets,Nets,Brooklyn
3,1610612766,CHA,Charlotte Hornets,Hornets,Charlotte
4,1610612741,CHI,Chicago Bulls,Bulls,Chicago
5,1610612739,CLE,Cleveland Cavaliers,Cavaliers,Cleveland
6,1610612742,DAL,Dallas Mavericks,Mavericks,Dallas
7,1610612743,DEN,Denver Nuggets,Nuggets,Denver
8,1610612765,DET,Detroit Pistons,Pistons,Detroit
9,1610612744,GSW,Golden State Warriors,Warriors,Golden State
