---
## Full-text Search and PostgresSQL Extensions

---

### Intro to to full-text search


Para buscar cadenas de texto sobre campos podemos utilizar la clasula de LIKE, sin embargo, esta posee algunas desventajas.

- Necesitamos utlizar el operador **'%'**.
- Cuando comparamos cadenas de texto las mismas deben ser implicitas.
- Esto hace que las variaciones de texto con capital case sean inumerables. E.g 'cold' != 'Cold'


```sql
-- Esta consulta no matcheara con goLd, golD, GOld
    SELECT 
        title
    FROM film
    WHERE title LIKE '%Gold'
```


Por esta razon podemos realizar una busqueda FULL-TEXT. Una **Full-Text Search** proporciona un medio para realizar consultas documentos de lenguaje natural que localizan el mejor match en un query. El tipo de dato `TSVECTOR` representa un documento en un formato optimizado para realizar busquedas de texto, por otra parte, tsquery es un type que representa un texto de consulta o **text query**.


---

LINEAS DE CONFG


---




In [None]:
import sqlalchemy as sqla

engine = sqla.create_engine('postgresql://postgres:Panama2021@localhost:5433/dvdrental')

%load_ext sql
%sql $engine.url

'Connected: postgres@dvdrental'

In [19]:
%sql SELECT title, description FROM film WHERE to_tsvector(title) @@ tsquery('elf')

 * postgresql://postgres:***@localhost:5433/dvdrental
3 rows affected.


title,description
Elf Murder,A Action-Packed Story of a Frisbee And a Woman who must Reach a Girl in An Abandoned Mine Shaft
Encino Elf,A Astounding Drama of a Feminist And a Teacher who must Confront a Husband in A Baloon
Ghostbusters Elf,A Thoughtful Epistle of a Dog And a Feminist who must Chase a Composer in Berlin


In [37]:
%sql SELECT title, description description FROM film WHERE to_tsvector(title) @@ to_tsquery('man')

 * postgresql://postgres:***@localhost:5433/dvdrental
0 rows affected.


title,description


In [35]:
%sql SELECT title, description description FROM film WHERE title LIKE '%man%'

 * postgresql://postgres:***@localhost:5433/dvdrental
28 rows affected.


title,description
Agent Truman,A Intrepid Panorama of a Robot And a Boy who must Escape a Sumo Wrestler in Ancient China
Anonymous Human,A Amazing Reflection of a Database Administrator And a Astronaut who must Outrace a Database Administrator in A Shark Tank
Badman Dawn,A Emotional Panorama of a Pioneer And a Composer who must Escape a Mad Scientist in A Jet Boat
Braveheart Human,A Insightful Story of a Dog And a Pastry Chef who must Battle a Girl in Berlin
Bulworth Commandments,A Amazing Display of a Mad Cow And a Pioneer who must Redeem a Sumo Wrestler in The Outback
Comancheros Enemy,A Boring Saga of a Lumberjack And a Monkey who must Find a Monkey in The Gulf of Mexico
Command Darling,A Awe-Inspiring Tale of a Forensic Psychologist And a Woman who must Challenge a Database Administrator in Ancient Japan
Commandments Express,A Fanciful Saga of a Student And a Mad Scientist who must Battle a Hunter in An Abandoned Mine Shaft
Drifter Commandments,A Epic Reflection of a Womanizer And a Squirrel who must Discover a Husband in A Jet Boat
Forrester Comancheros,A Fateful Tale of a Squirrel And a Forensic Psychologist who must Redeem a Man in Nigeria


### Funcionalidades Extendidas de PostgreSQL

#### Enumerate DATA TYPE

PostgreSQL nos permite crear tipos de datos personalizados; en algunos casos vemos necesario crear este tipo de customizacion una vez veamos que los datos no cambian. E.g crearemos el tipo de dato `dayweek`; sabiendo que los dias de la semana no cambian. Para crear un tipo de dato personalizado haremos uso del keyword `ENUM`.
 

```SQL
CREATE TYPE name_new_type AS ENUM (
    'TIPE_1',
    'TIPE_2',
    'TIPE_3',
    'TIPE_4'
)
```

In [39]:
#Crearemos el tipo de dato dayweek
%sql CREATE TYPE dayweek \
    AS ENUM ('Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday')

 * postgresql://postgres:***@localhost:5433/dvdrental
Done.


[]

In [41]:
#Agregaremos una nueva columna con el tipo de dato dayweek
%sql ALTER TABLE film ADD COLUMN day_name dayweek

 * postgresql://postgres:***@localhost:5433/dvdrental
Done.


[]

In [46]:
#Agregaremos los valores Monday para el fim con id =1 el Martes para el film = 2....etc
%sql UPDATE film SET day_name = 'Monday' WHERE film_id = 1; UPDATE film SET day_name = 'Tuesday' WHERE film_id = 2; UPDATE film SET day_name = 'Wednesday' WHERE film_id = 3; UPDATE film SET day_name = 'Thursday' WHERE film_id = 4  

 * postgresql://postgres:***@localhost:5433/dvdrental
1 rows affected.
1 rows affected.
1 rows affected.
1 rows affected.


[]

In [49]:
#Resultado
%sql SELECT film_id, title, day_name FROM film WHERE film_id BETWEEN 1 AND 5

 * postgresql://postgres:***@localhost:5433/dvdrental
5 rows affected.


film_id,title,day_name
1,Academy Dinosaur,Monday
2,Ace Goldfinger,Tuesday
3,Adaptation Holes,Wednesday
4,Affair Prejudice,Thursday
5,African Egg,


**Obtener Info**

Para obtener informacion sobre el tipo de datos podemos utilizar la TABLA [`INFORMATION_SCHEMA`], o tambien podemos usar `pg_type` que veremos determinado con la LETRA **E** en la columna **TYPCATEGORY**, esto nos indica que es un dato de tipo `ENUM` como previamente lo establecimos en el tipo de dato.

In [52]:
%sql SELECT column_name, data_type, udt_name \
    FROM INFORMATION_SCHEMA.COLUMNS \
    WHERE table_name = 'film' \
    LIMIT 14

 * postgresql://postgres:***@localhost:5433/dvdrental
14 rows affected.


column_name,data_type,udt_name
day_name,USER-DEFINED,dayweek
last_update,timestamp without time zone,timestamp
fulltext,tsvector,tsvector
film_id,integer,int4
release_year,integer,int4
language_id,smallint,int2
rental_duration,smallint,int2
rental_rate,numeric,numeric
length,smallint,int2
replacement_cost,numeric,numeric


In [56]:
%sql SELECT typname, typcategory FROM pg_type WHERE typname='dayweek'

 * postgresql://postgres:***@localhost:5433/dvdrental
1 rows affected.


typname,typcategory
dayweek,E


#### Funciones definidas por el usuario

Una **USER-DEFINED FUNCTIONS** (funcion definida por el usuario) es el equivalente a un procedimiento almacenado en POSTGRESQL. En la cual podemos empaquetar varias consultas y sentencias SQL en **UN SOLO PAQUETE**, solo hace ejecutar crear el comando **CREATE FUNCTION.**

Definamos una funcion que devuelve el cuadrado de un numero....

In [64]:
#DEFINIMOS LA FUNCION
%sql CREATE FUNCTION squared(i integer) RETURNS integer AS $$ \
    BEGIN \
        return i*i; \
    END; $$ LANGUAGE plpgsql;  

 * postgresql://postgres:***@localhost:5433/dvdrental
Done.


[]

In [66]:
#LLAMAMOS LA FUNCION
%sql SELECT squared(8)

 * postgresql://postgres:***@localhost:5433/dvdrental
1 rows affected.


squared
64


La base de datos `DVD RENTAL` incorpora por defecto algunas funciones previamente creadas.

- `get_customer_balance (customer_id, effective_data)`: calcula el balance total de un cliente de un cliente dado.
- `inventory_held_by_customer (inventory_id)`: retorna el id del cliente que actualmente tiene rentado el inventario con el id proporcionado.
- `inventory_in_stock(inventory_id)`: retorna un valor booleano en dependenca si el item del inventario esta actualmente en stock.

In [104]:
# RETORNA EL ID del cliente que contiene LA pelicula rentada actualmente
%sql SELECT INVENTORY_HELD_BY_CUSTOMER(1435)

 * postgresql://postgres:***@localhost:5433/dvdrental
1 rows affected.


inventory_held_by_customer
405


In [90]:
# Nos devolvera true si la pelicula esta disponible o False si no esta disponible
%sql SELECT inventory_in_stock(830)

 * postgresql://postgres:***@localhost:5433/dvdrental
1 rows affected.


inventory_in_stock
True


In [113]:
#Aprovecharemos la funcion held_by_customer para rertornar las films alquilados junto al id del customer
%sql SELECT \
	f.title, \
    i.inventory_id, \
    inventory_held_by_customer(i.inventory_id) as held_by_cust \
FROM film as f \
	INNER JOIN inventory AS i ON f.film_id=i.film_id \
WHERE \
    inventory_held_by_customer(i.inventory_id) IS NOT NULL \
LIMIT 10

 * postgresql://postgres:***@localhost:5433/dvdrental
10 rows affected.


title,inventory_id,held_by_cust
Academy Dinosaur,6,554
Ace Goldfinger,9,366
Affair Prejudice,21,111
African Egg,25,590
Ali Forever,70,108
Alone Trip,81,236
Amadeus Holy,97,512
American Circus,106,44
Amistad Midsummer,112,349
Armageddon Lost,177,317


#### Intro to PostgreSQL extensions

<p align="center">
<img src="https://pbs.twimg.com/media/FgAawu-VsAAr7df.jpg:large" width="500"></img>
</p>
Al igual que muchas herramientas informaticas POSTGRESQL incopora extensiones que nos permiten trabajar con imagenes, ubicaciones geograficas o busquedas de texto. Algunas extensiones de uso comun son

- PostGIS: soportar objetos geo espaciales agregando la funcionalidad de ejecutar queries con respecto a ubicaciones geograficas.
- PostPic: permite el procesamiento de imagenes dentro de la base de datos
- fuzzystrmatch: agrega funcionalidades de tipo full text search
- pg_trgm: agrega funcionalidades de tipo full text search

Para verificar que extensiones se encuentran disponibles para utilizar especificamente en la distribucion de nuestro mortor de POSTGRESQL, debemos consultar la tabla `pg_avaliable_extensions`. 

In [117]:
%sql SELECT name FROM pg_available_extensions\
    LIMIT 20

 * postgresql://postgres:***@localhost:5433/dvdrental
20 rows affected.


name
adminpack
amcheck
autoinc
bloom
bool_plperl
bool_plperlu
btree_gin
btree_gist
citext
cube


Para verificar que extensiones se encuentran YA instaladas y listas para su uso podemos utilizar la tabla `PG_EXTENSION`. En este caso solo tenemos la extension **plpgsql** instalada.

In [118]:
%sql SELECT extname \
    FROM pg_extension;

 * postgresql://postgres:***@localhost:5433/dvdrental
1 rows affected.


extname
plpgsql


Para cargar cualquiera de las extensiones que sean arrojadas por la tabla `pg_available_extensions`, debemos ejecutar el keyword `CREATE EXTENSION` por ejemplo junto con el nombre de la extension deseada.

In [119]:
#Utilizamos IF NOT EXISTS para corroborar que no se encuentra habilitada de lo contrario arrojara un error
%sql CREATE EXTENSION IF NOT EXISTS fuzzystrmatch;

 * postgresql://postgres:***@localhost:5433/dvdrental
Done.


[]

In [120]:
#Confirmamos que fuzzystrmatch ha sido habilitada
%sql SELECT extname FROM pg_extension;

 * postgresql://postgres:***@localhost:5433/dvdrental
2 rows affected.


extname
plpgsql
fuzzystrmatch


##### FUZZYSRTMATCH

Utilizaremos la funcion `levenshtein` para medir la distancia entre dos cadenas de texto, levenshtein retorna que la distancia entre `PURO` Y `PULGA` es = 3 porque se requiere realizar los siguientes pasos.

1. Eliminar L
2. Reemplazar la A por la O
3. Reemplazar la G por la R

```sql
SELECT levenshtein(source_strng, comparator_string)
```

In [125]:
%sql SELECT levenshtein('PURO','PULGA')

 * postgresql://postgres:***@localhost:5433/dvdrental
1 rows affected.


levenshtein
3



##### Pg_trgm
Usaremos la funcion `similarity` que pertenece a la extension `pg_trgm`. Similarity busca coincidir `trigrams` (Trigramas) siendo un trigrama un grupo de 3 caracteres consecutivos; basando el resultado retornado, en el numero de trigramas encontrado entre dos cadena de textos. 

Similarity devuelve un numero entre 0 y 1, siendo 1 un match perfecto y 0 ningun trigrama encontrado.

```sql
SELECT similarity( source_strng, comparator_string)
```

In [133]:
%sql SELECT name from pg_available_extensions \
    WHERE name LIKE '%pg%'

 * postgresql://postgres:***@localhost:5433/dvdrental
11 rows affected.


name
pgcrypto
pgrowlocks
pgstattuple
pg_buffercache
pg_freespacemap
pg_prewarm
pg_stat_statements
pg_trgm
pg_visibility
plpgsql


In [134]:
#Primero habilitemos la extension pg_trgm
%sql CREATE EXTENSION IF NOT EXISTS pg_trgm

 * postgresql://postgres:***@localhost:5433/dvdrental
Done.


[]

In [137]:
#Verifiquemos que este habilitada la ext pg_trgm
%sql SELECT * FROM pg_extension

 * postgresql://postgres:***@localhost:5433/dvdrental
3 rows affected.


oid,extname,extowner,extnamespace,extrelocatable,extversion,extconfig,extcondition
13428,plpgsql,10,11,False,1.0,,
33138,fuzzystrmatch,10,2200,True,1.1,,
33149,pg_trgm,10,2200,True,1.5,,


In [138]:
#Usemos la funcion similarity
%sql SELECT similarity('Manuel','Manntequilla')

 * postgresql://postgres:***@localhost:5433/dvdrental
1 rows affected.


similarity
0.1764706
