# Query Pandas DataFrame with SQL

<mark>Pandasql es una herramienta para aquellos científicos de datos que prefieren utilizar la sintaxis que ofrece `sql` sobre Pandas</mark>

El siguiente notebook es tan solo una prueba sobre el material encontrado en [towards data science]("https://towardsdatascience.com/query-pandas-dataframe-with-sql-2bb7a509793d")

## Instalamos el paquete `pandasql`

In [1]:
# Instalamos
!pip install -U pandasql

Collecting pandasql
  Downloading pandasql-0.7.3.tar.gz (26 kB)
Building wheels for collected packages: pandasql
  Building wheel for pandasql (setup.py): started
  Building wheel for pandasql (setup.py): finished with status 'done'
  Created wheel for pandasql: filename=pandasql-0.7.3-py3-none-any.whl size=26821 sha256=9b42301885e8a7416956d8a46b3c44308c828b38c0bd315532b8fb25db1540c8
  Stored in directory: c:\users\usuario\appdata\local\pip\cache\wheels\ed\8f\46\a383923333728744f01ba24adbd8e364f2cb9470a8b8e5b9ff
Successfully built pandasql
Installing collected packages: pandasql
Successfully installed pandasql-0.7.3


## Importamos la librerías necesarias

In [2]:
from pandasql import sqldf
import pandas as pd
from sklearn import datasets

Se utilizará el Dataframe de `Iris` para realizar la prueba:
- df_feature: contiene las características
- df_target: la variable objetivo

*Pandasql funcionará tanto con Dataframes como con Series*

In [3]:
df_feature = datasets.load_iris(as_frame = True)['data']
df_target = datasets.load_iris(as_frame = True)['target']
print (type(df_feature))
print (type(df_target))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


El método `sqldf`es usado para consultar Dataframes y requiere de dos inputs:
1. Sql query string
2. Funciones globals() o locals() 

En el siguiente ejemplo `sqldf`nos devolverá el resultado en un dataframe donde `q`es el SQL string

In [5]:
q = "SELECT * FROM df_feature LIMIT 5"
sqldf(q, globals())

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [6]:
# Examinamos la funcion globals()
globals()

{'__name__': '__main__',
 '__doc__': 'Automatically created module for IPython interactive environment',
 '__package__': None,
 '__loader__': None,
 '__spec__': None,
 '__builtin__': <module 'builtins' (built-in)>,
 '__builtins__': <module 'builtins' (built-in)>,
 '_ih': ['',
  "get_ipython().system('pip install -U pandasql')",
  'from pandasql import sqldf\nimport pandas as pd\nfrom sklearn import datasets',
  "df_feature = datasets.load_iris(as_frame = True)['data']\ndf_target = datasets.load_iris(as_frame = True)['target']\nprint (type(df_feature))\nprint (type(df_target))",
  'q = "SELECT * FROM df_target LIMIT 5"\nsqldf(q, globals())',
  'q = "SELECT * FROM df_feature LIMIT 5"\nsqldf(q, globals())',
  'globals()'],
 '_oh': {4:    target
  0       0
  1       0
  2       0
  3       0
  4       0,
  5:    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
  0                5.1               3.5                1.4               0.2
  1                4.9      

In [7]:
print (globals().keys())

dict_keys(['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__builtin__', '__builtins__', '_ih', '_oh', '_dh', 'In', 'Out', 'get_ipython', 'exit', 'quit', '_', '__', '___', '_i', '_ii', '_iii', '_i1', '_exit_code', '_i2', 'sqldf', 'pd', 'datasets', '_i3', 'df_feature', 'df_target', '_i4', 'q', '_4', '_i5', '_5', '_i6', '_6', '_i7'])


Èl ouput de la funcion `globals()`es un diccionario por lo que podemos acceder a los valores de las variables, lo que nos devolverá el dataframe `df_feature`

In [8]:
globals()['df_feature']

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


### Ejercicio

Creamos una nueva función llamada pysqldf para evitar pasar `globals ()` o `locals ()` en cada consulta

In [9]:
pysqldf = lambda q: sqldf(q, globals())

# Se ha simplificado la forma en la que realizamos las consultas
query = 'SELECT * FROM df_feature LIMIT 5'
pysqldf(query)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [10]:
query = 'SELECT * FROM df_target LIMIT 5'
pysqldf(query)

Unnamed: 0,target
0,0
1,0
2,0
3,0
4,0


Usaremos el método `pd.concat` de pandas para unir los datos `df_feature, df_target`

In [11]:
# unimos y observamos las primeras filas
pd.concat([df_feature, df_target], axis = 1).head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


Al usar SQL necesitaremos crear una columna que identifique el número de la fila y utilizar dicho número para unir las dos tablas. 

*Pandasql* utiliza *SQLite* bajo el capó, por lo que una tabla SQLite tendría por defecto una columna denominada `rowid` (corresponde a un valor incremental a partir del 1)

In [12]:
query = 'SELECT rowid, * FROM df_feature LIMIT 3'
pysqldf(query)

Unnamed: 0,rowid,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,1,5.1,3.5,1.4,0.2
1,2,4.9,3.0,1.4,0.2
2,3,4.7,3.2,1.3,0.2


Ahora podemos unir ambas tablas usando la columna `rowid`.

El resultado será asignado a una nueva variable la cual será consultada posteriormente

In [13]:
query = 'SELECT * FROM df_feature INNER JOIN df_target ON df_feature.rowid = df_target.rowid'
df = pysqldf(query)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [14]:
# Consultamos la longitud promedio del sépalo" 
query = 'SELECT target, AVG("sepal length (cm)") AS mean_sepal_length FROM df GROUP BY target'
pysqldf(query)

# Destacar que utilizan " " y esto es solo necesario si existen espacios en blancos en los nombres de las columnas

Unnamed: 0,target,mean_sepal_length
0,0,5.006
1,1,5.936
2,2,6.588


In [15]:
# Super interesante como se puede utilizar el f-strings para lanzar la consulta
COL_NAME = '"sepal length (cm)"'
ALIAS = 'sepal_length'
AGG = 'MAX'
query = f"SELECT {AGG}({COL_NAME}) AS {ALIAS} FROM df"
pysqldf(query)

Unnamed: 0,sepal_length
0,7.9


SQL Features That SQLite Does Not Implement

[Unsupported features of SQL]("https://www.sqlite.org/omitted.html")