[![Banner-Preparaci-n.png](https://i.postimg.cc/q7vd5LZP/Banner-Preparaci-n.png)](https://postimg.cc/QFwPBpDm)

# Integración y preparación de datos

## Actividad: Transformaciones de texto usando spacy

Hola, en este Notebook veremos como convertir nuestro texto utilizando la libreria spacy. Spacy es una poderosa libreria que nos permite hacer transformaciones de texto mediante una serie de comandos relativamente sencillos, que veremos a continuacion. Veremos como spacy nos ayuda a tokenizar, lematizar, y convertir las cadenas de texto en atributos numericos dicientes para ingresarlos a tu modelo de prediccion.

Como contexto, vamos a trabajar con los datos de Booking.com, y un listado de hoteles, y su respectiva descripcion en la plataforma de Booking. Las descripciones serán usadas para ilustrar la forma en que spacy transforma nuestro texto en atributos numéricos.

**Autor:** John Calvo, Santiago Fajardo

js.calvo125@uniandes.edu.co, s.fajardot@uniandes.edu.co

### 1. ¿Qué es tokenización en NLP?
Durante el procesamiento, spaCy primero tokeniza el texto, i.e. segmenta el texto en palabras, puntuación y así sucesivamente. Esto es posible aplicando reglas específicas a cada lenguaje. Por ejemplo, puntuación al final de una oración debe ser una separación, mientras que en palabras como “U.K” se debe mantener en una sola palabra. Cada Doc consiste de tokens individuales y podemos iterar sobre ellos.

Para esto, primero vamos a cargar la libreria spacy. Para instalara, primero ejecuta el comando: 

pip install spacy 

Una vez instalado, ejecuta el comando:

python -m spacy download es_core_news_md

Esto instalará el modelo necesario para nuestra tranformación.

In [1]:
import spacy #Libreria a utilizar
import pandas as pd

In [2]:
nlp = spacy.load("es_core_news_md") #Cargamos el modelo NLP en español de Spacy

Ahora, podemos cargar nuestros datos de Booking.com que puedes encontrar en https://www.kaggle.com/camesruiz/booking-hotel-descriptions-spanish/version/1 gracias a Camilo Ruiz

In [19]:
#col_names = ["ID","name","location","description","rating","image","link"]
dataframe = pd.read_csv("hotelsb_df_es (utf-8).csv", sep=',', skip_blank_lines=True, quotechar='"', encoding='utf-8')
dataframe.head(3)

Unnamed: 0,ID,name,location,description,rating,image,link
0,0,Hotel Marina Suites By GH Suites,"Bocagrande, Cartagena de Indias",\r\nEl Hotel Marina Suites By GH Suites se enc...,7.9,https://cf.bstatic.com/xdata/images/hotel/squa...,https://www.booking.com/hotel/co/marina-suite....
1,1,Hotel Fenix Beach Cartagena,Tierra Bomba,\r\nEl Hotel Fenix ​​Beach Cartagena se encuen...,8.8,https://cf.bstatic.com/xdata/images/hotel/squa...,https://www.booking.com/hotel/co/playa-vista.e...
2,2,Mercure Bogota Calle 100,"Chapinero, Bogotá",\r\nEl Mercure Bogotá Calle 100 se encuentra e...,8.9,https://cf.bstatic.com/xdata/images/hotel/squa...,https://www.booking.com/hotel/co/atton-bogota-...


In [20]:
# creamos un documento utilizando el primer registro
doc = nlp(dataframe.iloc[0].description) #Oracion formada con el diccionario de palabras NLP
for token in doc:
    print(token.text)



El
Hotel
Marina
Suites
By
GH
Suites
se
encuentra
en
Cartagena
de
Indias
,
a
solo
200
metros
de
la
playa
.
Ofrece
servicio
de
habitaciones
,
un
centro
de
negocios
y
conexión
Wi-Fi
gratuita
.


Las
habitaciones
disponen
de
aire
acondicionado
,
TV
,
baño
privado
con
ducha
y
aseo
,
suelo
de
baldosa
y
armario
.


Hay
restaurantes
locales
con
servicio
de
envío
de
comida
,
y
se
pueden
encontrar
sitios
para
comer
a
menos
de
5
minutos
a
pie
.


El
Hotel
Marina
Suites
By
GH
Suites
se
halla
a
solo
1
km
del
centro
histórico
de
Cartagena
de
Indias
,
a
200
metros
del
centro
comercial
Nao
y
a
7
km
del
aeropuerto
internacional
Rafael
Núñez
.




In [21]:
# Vamos a guardar nuestros documentos transformados en una lista

nlp_docs = []

for _, hotel in dataframe.iterrows():
    doc = nlp(hotel.description)
    nlp_docs.append(doc)
    
nlp_docs[3]


Este hotel está situado en Bogotá, a 5 minutos a pie del centro de convenciones de Corferias y a 5 minutos en coche de la embajada de Estados Unidos. Ofrece habitaciones confortables con conexión Wi-Fi gratuita.
Las habitaciones del Hotel Pasajero Suites disponen de baño privado con ducha y agua caliente las 24 horas y TV LED Smart.
El hotel cuenta con recepción 24 horas con consigna de equipaje y sirve cada mañana un desayuno americano con café colombiano recién hecho.
El Pasajero Suites está a 10 minutos en coche del aeropuerto internacional El Dorado y a 15 minutos en coche del Museo del Oro. 

### 2. ¿Qué sigue después de tokenizar nuestra oración?

Después de la tokenización, spaCy puede realizar un parse y taggear un documento dado. Acá es donde un [pipeline]( https://spacy.io/usage/spacy-101#pipelines) entrenado y sus modelos estadísticos son usados, lo cual permite a spaCy realizar predicciones de que tag o etiqueta aplica al contexto. Un componente entrenado incluye datos binarios que es producida al momento de mostrarle a un sistema suficientes ejemplos, para realizar predicciones que son generales a lo largo del lenguaje. Por ejemplo, una palabra seguido de ‘el’ es más probable que sea un sustantivo.

Anotaciones lingüísticas están disponibles como atributos del token. Como otras librerías de NLP, spaCy codifica todos los Strings a [valores de hash]( https://latam.kaspersky.com/blog/que-es-un-hash-y-como-funciona/2806/#:~:text=10%20Abr%202014-,Una%20funci%C3%B3n%20criptogr%C3%A1fica%20hash%2D%20usualmente%20conocida%20como%20%E2%80%9Chash%E2%80%9D%2D,tendr%C3%A1%20siempre%20la%20misma%20longitud.) para reducir el uso de memoria e incrementar la eficiencia. Así que para obtener la representación en caracteres utilizamos `_` al final del nombre

Veamos un ejemplo

In [22]:
for token in nlp_docs[3]: #Iteramos sobre cada token y extraemos los siguientes atributos de un documento
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)


 
 SPACE _SP  
 False False
Este Este DET DET__Gender=Masc|Number=Sing|PronType=Dem det Xxxx True True
hotel hotel NOUN NOUN__Gender=Masc|Number=Sing nsubj xxxx True False
está estar AUX AUX__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin cop xxxx True True
situado situar ADJ ADJ__Gender=Masc|Number=Sing|VerbForm=Part ROOT xxxx True False
en en ADP ADP__AdpType=Prep case xx True True
Bogotá Bogotá PROPN PROPN obl Xxxxx True False
, , PUNCT PUNCT__PunctType=Comm punct , False False
a a ADP ADP__AdpType=Prep case x True False
5 5 NUM NUM__NumForm=Digit|NumType=Card nummod d False False
minutos minuto NOUN NOUN__Gender=Masc|Number=Plur obl xxxx True False
a a ADP ADP__AdpType=Prep case x True False
pie pie INTJ NOUN fixed xxx True False
del del ADP ADP__AdpType=Preppron fixed xxx True True
centro centrar NOUN NOUN__Gender=Masc|Number=Sing nmod xxxx True False
de de ADP ADP__AdpType=Prep case xx True True
convenciones convención NOUN NOUN__Gender=Fem|Number=Plur nmod xxxx True F

Como observamos, obtenemos los siguientes atributos de cada palabra en la oración: El texto, el texto en forma base, la nomenclatura de la palabra (verbo, sustantivo, …), un Tag correspondiente a la nomenclatura, la dependencia de la palabra en la oración, la forma que tiene (Si empieza con mayúscula o si hay una mayúscula en el medio), si el token es Alpha numérico y si la palabra hace parte de las palabras más usadas en el lenguaje.  Un ejemplo de lo que obtenemos lo vemos en la siguiente tabla:


| TEXT    	| LEMMA   	| POS   	| TAG 	| DEP      	| SHAPE 	| ALPHA 	| STOP  	|
|---------	|---------	|-------	|-----	|----------	|-------	|-------	|-------	|
| Este      | Este      | DET       | ...   | det       | Xxxx      | True      | True      |
| hotel     | hotel     | NOUN      | ...   | ROOT      | xxxx      | True      | False     |
| está      | est       | PROPN     | PROPN | flat      | xxx       | True      | False     |

Estas son caracteristicas semánticas del conjunto de palabras encontradas en un determinado documento que fue transformado usando spacy. Como vemos, entontramos características como el lema de la palabra, su función dentro de la oración, si la palabra es un verbo, nombre, adjetivo, proposición, etc.


### 2. Visualización
Adicionalmente, podemos ver como es interpretada la oración y las dependencias al interior de la oración, cómo lo vemos en el siguiente código

In [24]:
from spacy import displacy #Importamos la libreria displacy para poder graficar 
sentence_spans = list(nlp_docs[3].sents) #Cremos una lista de palabras a partir de la oracion

In [25]:
displacy.render(sentence_spans, style='dep', jupyter=True, options={'distance': 140}) #Graficamos las dependencias e interpretación

In [26]:
displacy.render(sentence_spans, style='ent', jupyter=True) # Grafica para visualizar la deteccion de entidades



### 3. Tranformación numérica

Ahora, vamos a ver como se representa un documento en nuestro vector numérico, que fué transformado por spacy en nuestra tarea de parsing. Un documento convertido en un vector numérico nos es de mucha utilidad al momento de efectuar tareas de clasificacion de texto o de inferencia de rankings como en este ejemplo. Tambien estos vectores son muy utilizados cuando queremos comparar la similitud entre dos documentos. 

In [27]:
# Este seria una transformacion vectorial mediante TF-IDF, o una tecnica mas avanzada que efectuó spacy 
# al momento de generar nuestro objecto doc 

nlp_docs[3].vector

array([ 1.20482898e+00,  1.10522732e-01,  6.19889677e-01,  8.28116536e-01,
        7.12487400e-01,  7.40799755e-02, -4.65785146e-01,  1.68049186e-01,
        6.97081804e-01, -5.57429612e-01,  2.46727556e-01,  9.73027408e-01,
        1.01136220e+00,  1.14661789e+00, -1.52123260e+00,  1.05496776e+00,
        2.63637185e-01,  6.39321268e-01,  2.39508137e-01,  1.03144026e+00,
       -3.77487510e-01, -8.53679538e-01, -5.05716443e-01,  7.14572549e-01,
        4.72292956e-03,  4.01105344e-01,  4.20959145e-01,  1.78429520e+00,
        5.85241497e-01, -1.83497930e+00,  3.71881306e-01, -6.54615998e-01,
       -4.56284970e-01,  2.32364699e-01, -1.43773928e-01, -1.36908495e+00,
        1.15863420e-01, -1.00800157e+00,  8.78069997e-01, -5.51854014e-01,
        2.35715955e-01, -6.89187586e-01, -2.40998578e+00,  4.71363127e-01,
       -1.16170514e+00,  9.96910751e-01, -4.60860431e-01, -3.93927917e-02,
       -8.82215023e-01,  1.98569521e-01,  2.85739243e-01, -2.41725147e-01,
        3.67027253e-01,  

Ahora, con esto en mente, vamos a validar que tan similares son dos descripciones de hotel:

In [28]:
print(nlp_docs[1], "<->", nlp_docs[2], nlp_docs[1].similarity(nlp_docs[2]))


El Hotel Fenix ​​Beach Cartagena se encuentra en la isla de Tierra Bomba, a 10 minutos en barco de Cartagena. El establecimiento dispone de playa, bar y restaurante.
Las habitaciones cuentan con aire acondicionado, ventilador y baño privado con ducha. Algunas habitaciones gozan de vistas al jardín. El establecimiento sirve un delicioso desayuno americano que incluye huevos, diferentes tipos de pan, una bebida caliente y zumo natural.
El Hotel Fenix ​​Beach Cartagena ofrece jardín, terraza, bar, piscina al aire libre y zona común con hamacas. Hay WiFi gratuita en todas las instalaciones.
El alojamiento se encuentra en una isla, a 15 minutos del centro histórico de Cartagena y a 10 km del aeropuerto internacional Rafael Núñez. 
 <-> 
El Mercure Bogotá Calle 100 se encuentra en la zona de El Chico, cerca del principal distrito financiero y de ocio, y ofrece un gimnasio y un restaurante en el centro de Bogotá. Dispone de sauna, bar, conexión Wi-Fi gratuita y aparcamiento gratuito. H

Como vemos, estas dos descripciones son muy similares con un 95% de similaridad entre ellas!

### 4. Ahora es tu turno
Ahora es tu turno de usar estos conceptos. Utiliza spacy para buscar la similaridad entre descripciones de varios hoteles. Analiza si esta similaridad tiene sentido, y valida la similaridad convirtiendo la cadena de string de abajo. Que similaridad obtienes con ella al comparar cualquiera de los hoteles?

In [29]:
#Empieza desde acá
documento = "Hola, en este tutorial veras que tan similares o diferentes son dos textos utilizando la libreria spacy en python. Adios"