# Prueba Wholemeaning

En este notebook se analizarán las oraciones correspondientes al primer punto de la prueba. La primera frase está en inglés y las dos siguientes en español. El análisis en la oración en inglés se realizará en el mismo idioma. Las otras dos frases, en español, igualmente se analizarán en español.

Con el objetivo de profundizar en el análisis, se ha hecho uso de la librería Spacy de python para, por un lado, identificar el tipo y rol que cumplen las palabras dentro de las oraciones y, por otro, graficar las relaciones entre palabras para así comprender los significados que sus relaciones están construyendo. Además, se ha hecho uso de la librería Pandas, con el objetivo de presentar de manera organizada, dentro de una tabla, los tipos de palabras que componen cada una de las oraciones.

Nota: El análisis se pudo realizar manualmente, con herramientas en el procesador de textos de word, pero he preferido acudir a la librería para detallar el análisis y presentarlo de una manera más organizada. Por otro lado, considero que el conocimiento y manejo de esta herramienta destaca el valor agregado por medio del cuál podría trascender en mis contribuciones dentro de la compañía.

# **Sentence Analyzer**

### 1. text to analyze: ***Such a man is what we call an original man.***

By: Doniben Jimenez

In order to analyze the different elements that make up the sentence, I have used some tools from the python lybraries Pandas and Spacy. Thanks to the last one is it possible to recognize the kinds of words, its roles in the sentences, if those are stopwords (non meaning words) and if the sentence contains entities (Subject nouns with special importance). I prefered to use the libraries instead of doing the exercise manually, by myself, for a more detailed and organized analysis. I could do it by myself, but I tink, that the knowledge using this kinds of tools could give a great value to the company If it is about my contributions.



In [3]:
!pip install spacy
!python -m spacy download es_core_news_md
!python -m spacy download en_core_web_md

Collecting spacy
  Using cached spacy-3.3.0-cp39-cp39-macosx_10_9_x86_64.whl (6.5 MB)
Collecting wasabi<1.1.0,>=0.9.1
  Using cached wasabi-0.9.1-py3-none-any.whl (26 kB)
Collecting murmurhash<1.1.0,>=0.28.0
  Using cached murmurhash-1.0.7-cp39-cp39-macosx_10_9_x86_64.whl (18 kB)
Collecting langcodes<4.0.0,>=3.2.0
  Using cached langcodes-3.3.0-py3-none-any.whl (181 kB)
Collecting catalogue<2.1.0,>=2.0.6
  Using cached catalogue-2.0.7-py3-none-any.whl (17 kB)
Collecting preshed<3.1.0,>=3.0.2
  Using cached preshed-3.0.6-cp39-cp39-macosx_10_9_x86_64.whl (106 kB)
Collecting pathy>=0.3.5
  Using cached pathy-0.6.1-py3-none-any.whl (42 kB)
Collecting spacy-legacy<3.1.0,>=3.0.9
  Using cached spacy_legacy-3.0.9-py2.py3-none-any.whl (20 kB)
Collecting typer<0.5.0,>=0.3.0
  Using cached typer-0.4.1-py3-none-any.whl (27 kB)
Collecting cymem<2.1.0,>=2.0.2
  Using cached cymem-2.0.6-cp39-cp39-macosx_10_9_x86_64.whl (32 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0
  Using cached spacy_loggers-1.0.2

Installing collected packages: es-core-news-md
Successfully installed es-core-news-md-3.3.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
Collecting en-core-web-md==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_md-3.3.0/en_core_web_md-3.3.0-py3-none-any.whl (33.5 MB)
[K     |████████████████████████████████| 33.5 MB 5.5 MB/s eta 0:00:01
Installing collected packages: en-core-web-md
Successfully installed en-core-web-md-3.3.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_md')


In [3]:
import spacy

# loading English dictionary from the library
nlp = spacy.load('en_core_web_md')

## Word types analysis

The first step to analyze the sentece is going to identify what kinds of words we have. The table shows the word, in the **Word** column. Next, the base lexical root by the column **Lemma**. For example in the case of the word "is", its base lexical root is the verb "be". The Lemma also shows if the lexical root comes from a grammar category, like in the case of the word "we". The **POS** column is about an abreviation of the role that the word plays. In case of confusion, or, in order to be clear, I added an **Explain** column in order to clarify the role of the word. Finally, I added the column **Stopword** with porpose of selecting if the word initially could be a non relevant word accross the sentences meaning, according to a general collection of words given by the Spacy library. I say "initially" because according to the general meaning of the sentences, the word collection could be wrong. That is the case of the verb "call" which role matters because is the way to conclude the sentence saying that it is about an "original man".

In [4]:
import pandas as pd

text = 'Such a man is what we call an original man.'
text_to_analize = nlp(text)

cols = ("Word", "Lemma", "POS", "Explain", "Stopword")
rows = []

for word in text_to_analize:
    row = [word.text, word.lemma_, word.pos_, spacy.explain(word.pos_), word.is_stop]
    rows.append(row)

table = pd.DataFrame(rows, columns=cols)
    
table

Unnamed: 0,Word,Lemma,POS,Explain,Stopword
0,Such,such,DET,determiner,True
1,a,a,DET,determiner,True
2,man,man,NOUN,noun,False
3,is,be,AUX,auxiliary,True
4,what,what,PRON,pronoun,True
5,we,we,PRON,pronoun,True
6,call,call,VERB,verb,True
7,an,an,DET,determiner,True
8,original,original,ADJ,adjective,False
9,man,man,NOUN,noun,False


Once identified the word roles, we can identify the chunks. They are parts of the sentence that represent an important referent for the meaning of the sentence. These are usually the subjects of the sentence. So, about "Such a man" we can say that it is the reference subject, "what" is the second reference subject that refers the first one. And finally "we" is the main subject, that based on the referece subjects, can use the verb in order to determine the direct complement. It means that "we" is going to use "call" as a transitive verb to redifine the reference subject "a man" as an "original man".

In [5]:
for part in text_to_analize.noun_chunks:
  print(part)

Such a man
what
we
an original man


# Visual relations

We already defined the word roles and its main chunks. Now, it is time to understand how the relations between the words works. We have three parts. A predeterminated noun phrase "Such a man is what we" that, we already said, is the referente subject predeterminated by the word "such" connected with "what we" as a noun to use the verb. The verb "call" plays a role to emphasize the what mainly "we" wants to say, that it's about "an original man", which is the direct complement. So, three parts: noun phrase, verb, direct complement.

In [6]:
from spacy import displacy

displacy.render(text_to_analize, style='dep', options={'distance': 100}, jupyter=True)

# Entities

We don't have entities in the sentence. So, we can't talk about them. Let's see if possible by the spanish sentences.

In [7]:
text = 'Such a man is what we call an original man.'
text_to_analize = nlp(text)
for ent in text_to_analize.ents:
    print(ent.text, ent.label_)

# Oraciones en español

### 2. **Oración para Analizar**: *Me gustaría saber cuánto es el monto máximo que se puede tener en la cuenta.*

Como mencionamos en el análisis de la primera oración, primero se definirán los roles que juega cada palabra de la oración. Se ha definido una tabla con 5 columnas. La primera contendrá cada una de las palabras. La segunda, **Raíz** contendrá la base lexical de la palabra. En ella, podemos observar que en el caso del pronombre reflexivo "Me", su base lexical es el pronombre "yo". Igual sucede con el verbo conjugado en tiempo condicional "gustaría", cuya base lexical es el verbo en infinitivo "gustar". De la misma manera se puede observar cómo varía la base lexical en las palabras "es","se","puede" y "la". Cabe mencionar que la herramienta tiene un margen de error que a suerte de nuestro análisis se presta para hacer un par de menciones al respecto. Spacy se equivo en listar "él" como base lexical del pronombre reflexivo "se", sin embargo, es de destacar que pertenecen a la tercer persona del singular. 

La columna **Tipo** define la naturaleza de cada una de las palabras. Es realmente esta columna la que más nos importa puesto que define por separado el de las palabras dentro de la oración. A continuación, la columna **Definición** extenderá la abreviación dada en la anterior columna. Finalmente, se encuentra la columna **Irrelevancia**, por medio de la cual se hará una predefinición de las palabras que, según una colección dentro de Spacy, representarían relevancia dentro de la oración. Vale aclarar que, de acuerdo a los valores booleanos, sólo aquellas que se encuentran como False serían palabras relavantes dentro del significado de la oración. Siendo así "gustaría", "monto" y "máximo" las palabras que considera Spacy más relavantes en esta oración. En mi perspectiva, "cuenta" también sería una palabra relevante en el significado de la oración.



In [8]:
# Cargando diccionario en español desde la librería
nlp_es = spacy.load('es_core_news_md')

In [13]:
import pandas as pd

text = 'Me gustaría saber cuánto es el monto máximo que se puede tener en la cuenta.'
text_to_analize = nlp_es(text)

# Define cabeceras de la tabla
cols = ("Palabra", "Raíz", "Tipo", "Definición", "Irrelevancia")
rows = []

for word in text_to_analize:
    row = [word.text, word.lemma_, word.pos_, spacy.explain(word.pos_), word.is_stop]
    rows.append(row)

table = pd.DataFrame(rows, columns=cols)
    
table

Unnamed: 0,Palabra,Raíz,Tipo,Definición,Relevancia
0,Me,yo,PRON,pronoun,True
1,gustaría,gustar,VERB,verb,False
2,saber,saber,VERB,verb,True
3,cuánto,cuánto,PRON,pronoun,True
4,es,ser,AUX,auxiliary,True
5,el,el,DET,determiner,True
6,monto,monto,NOUN,noun,False
7,máximo,máximo,ADJ,adjective,False
8,que,que,PRON,pronoun,True
9,se,él,PRON,pronoun,True


## Secciones sustantivas

Las secciones sustantivas son frases nominales, copuestas por una o más palabras sustantivas, que demuestran sujetos relevantes dentro de las oraciones. Identificarlos nos ofrece un foco por medio del cuál podemos definir quién ejecuta o para quién se ejecuta una oración. Esto cuando la sección sustantiva se encuentra sucedida por un verbo transitivo o intransitivo. De acuerdo con las secciones sustantivas que nos ha arrojado Spacy, podemos inferir que la oración está orientada en destacar el complemento directo de la oración. Es decir, A mí, primera persona, "Me gustaría saber" "cuánto" (una cantidad como retorno en la respuesta), "es el monto máximo" (máximo como cualidad especial de la respuesta que busco), "que" (como relativo referencial a la respuesta que espero) "la cuenta" (Como complemento circunstancial de lugar). Así, la intención de la primera persona en esta oración define  la respuesta que busca, una cantidad, dada su circunstancia (querer saber cuánto máximo en la cuenta).

In [10]:
for part in text_to_analize.noun_chunks:
  print(part)

cuánto
el monto máximo
que
la cuenta


## Diagrama relacional

En las secciones sustantivas ya definimos los puntos en que se define lo central de la oración. En el diagrama de relaciones se define "Me" como objeto indirecto del verbo en condicional "gustaría" y, como sujeto clausal (o cláusula) de la siguiente acción: "saber", verbo transitivo cuyo objeto directo sería "cuánto", que se refiere al sujeto nominal de la oración "Cuánto es el monto máximo", compuesto por una cópula "es" y un artículo determinado para "monto", "el monto". A continuación, tenemos una cláusula adjetiva: "monto máximo que se puede tener", compuesta por dos elementos: 
1. un modificador adjetivo "monto máximo" y, 
2. un sujeto nominal del modificador basado en el verbo "tener" compuesto por:
    a.  "que" el indicador del sujeto nominal, 
    b. "se" como una interjección pasiva y,
    c. "puede" como verbo auxiliar de la base "tener" en el cláusula adjetiva.
    
Finalmente, tenemos el complemento circunstancial de caso compuesto por la prepoción "en", el artículo determinado "la" y el sustantivo "cuenta". 

In [15]:
displacy.render(text_to_analize, style='dep', options={'distance': 110})

In [12]:
for ent in text_to_analize.ents:
    print(ent.text, ent.label_)

### 3. Oración para Analizar: Me estoy poniendo en contacto con usted para planificar mi vuelo.

En esta última oración realizaremos el mismo proceso:

1. Se definirá el rol/tipo de cada palabra
2. Se identificará las secciones sustantivas
3. Se graficarán y analizarán las relaciones gramaticales entre las palabras y los componentes de la oración

Como se ha dicho, en la tabla de las palabras y sus tipos, nos interesa observar la columna **Tipo** e **Irrelevancia**. En esta segunda nos encontramos con que las palabras relavantes serían "Poniendo", "contacto", "planificar" y "vuelo". A excepción de la primera, efectivamente se trata de palabras relevantes dentro de la oración puesto que definen el objetivo principal por el cual esta primera persona se pone en contacto, "planificar su vuelo".

In [16]:
text = 'Me estoy poniendo en contacto con usted para planificar mi vuelo.'
text_to_analize = nlp_es(text)

# Define cabeceras de la tabla
cols = ("Palabra", "Raíz", "Tipo", "Definición", "Irrelevancia")
rows = []

for word in text_to_analize:
    row = [word.text, word.lemma_, word.pos_, spacy.explain(word.pos_), word.is_stop]
    rows.append(row)

table = pd.DataFrame(rows, columns=cols)
    
table

Unnamed: 0,Palabra,Raíz,Tipo,Definición,Irrelevancia
0,Me,yo,PRON,pronoun,True
1,estoy,estar,AUX,auxiliary,True
2,poniendo,poner,VERB,verb,False
3,en,en,ADP,adposition,True
4,contacto,contacto,NOUN,noun,False
5,con,con,ADP,adposition,True
6,usted,usted,PRON,pronoun,True
7,para,para,ADP,adposition,True
8,planificar,planificar,VERB,verb,False
9,mi,mi,DET,determiner,True


## Secciones sustantivas

Tres sin las secciones sustantivas que Spacy nos ofrece. Gracias a ellas podemos decir que ponerse en contacto sería el caso por medio del cuál lograría su objetivo, siendo "usted" el sujeto nominal directo para poder ejecutar la acción transitiva ("planificar") cuyo objeto directo sería "mi vuelo".  

In [17]:
for part in text_to_analize.noun_chunks:
  print(part)

contacto
usted
mi vuelo


## Diagrama relacional

En diagrama relacional se hacen evidentes tres secciones. "Me estoy poniendo" como un clítico reflexivo con un verbo inherentemente reflexivo que sucede a una cláusula adjetiva "Poniendo en contacto con usted para planificar" y un objeto directo "mi vuelo". La cláusula adjetiva sería la sección con mayor complejidad puesto que define el medio por el cual se busca ejecutar la acción de "planificar". Este último verbo, transitivo, afectaría directamente al complemento directo "mi vuelo".

In [18]:
displacy.render(text_to_analize, style='dep', options={'distance': 110})