# Principales parámetros de Análisis de Lenguaje Natural 

Este notebook puede tomar una URL y calcular los tokens, entidades y chunks contenidos en el texto. Para esta tarea se usa la librería SpaCy.

In [0]:
#@title <-- 1. Presiona este botón para inicializar librerias y diccionarios

# Installs 

!pip3 install spacy
!python3 -m spacy download es
!python -m spacy download es_core_news_md
!python -m spacy.es.download all
!pip install newspaper3k

# Imports

import urllib.request
import spacy
from spacy.lang.es.stop_words import STOP_WORDS
import requests
import newspaper
from newspaper import Article 
from collections import Counter
from matplotlib.ticker import MaxNLocator
import pandas as pd


#nlp = spacy.load('es_core_news_md')
#nlp = spacy.load('es_core_news_sm')

nlp = spacy.load('es')

# Initializations

# Add stop words in spanish
STOP_WORDS.add('y')
STOP_WORDS.add('a')
STOP_WORDS.add('o')
STOP_WORDS.add('publicidad')
STOP_WORDS.add('expansion')
STOP_WORDS.add('para')
STOP_WORDS.add('\n')

# Punctuations to clean text
punctuations = '.¡!“"”#$%&\'()*+,-/:;<=>¿?@[\\]^_`{|}~©'



Collecting es_core_news_sm==2.1.0 from https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.1.0/es_core_news_sm-2.1.0.tar.gz#egg=es_core_news_sm==2.1.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.1.0/es_core_news_sm-2.1.0.tar.gz (11.1MB)
[K     |████████████████████████████████| 11.1MB 808kB/s 
[?25hBuilding wheels for collected packages: es-core-news-sm
  Building wheel for es-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for es-core-news-sm: filename=es_core_news_sm-2.1.0-cp36-none-any.whl size=11111557 sha256=bb85c2683a34a16b5079f2cd95e7306bb4be850de7c7dca76b2d3fd9c9c2f4f8
  Stored in directory: /tmp/pip-ephem-wheel-cache-mwswxc8h/wheels/cc/ee/c4/68922955901918a9aaa82e828d4f7ee1ccfc861285277e79b7
Successfully built es-core-news-sm
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-2.1.0
[38;5;2m✔ Download and installation successful[0m
You can now load

In [0]:
#@title <-- 2. Presiona este botón para enviar la URL a analizar

#@markdown Copia y pega la URL del artículo a analizar en el siguiente campo:
url = "https://expansion.mx/empresas/2019/03/20/el-tequila-gana-mas-consumidores-en-el-extranjero-que-en-mexico" #@param {type:"string"}
#@markdown 
#@markdown El proceso continúa en la siguientes celdas...

# Obtener texto limpio de la url y un doc de Spacy:
 
article = Article(url)
article.download()
article.parse()
#print(article.publish_date)  # left for debugging
#print(article.text)          # left for debugging
doc = nlp(article.text) # Runs NLP pipeline





# **Tokenización**

La siguiente celda ejecuta una tokenización del texto contenido en el artículo. Los resultados mostrados están clasificados con atributos de palabras como los que se muestran en la siguiente lista:

* **ADJ**: adjective
* **ADP**: adposition
* **ADV**: adverb
* **AUX**: auxiliary verb
* **CONJ**: coordinating conjunction
* **DET**: determiner
* **INTJ**: interjection
* **NOUN**: noun
* **NUM**: numeral
* **PART**: particle
* **PRON**: pronoun
* **PROPN**: proper noun
* **PUNCT**: punctuation
* **SCONJ**: subordinating conjunction
* **SYM**: symbol
* **VERB**: verb
* **X**: other


In [0]:
#@title <-- Presiona esta botón para ejecutar y mostrar los resultados de la tokenización del artículo que introdujiste
# Compute tokens from doc

words = []
for word in doc:
    words.append(
        [
        word.text.lower().strip(),
        word.lemma_.lower().strip(),
        word.shape_,
        word.pos_,
        word.tag_,
        word.idx]
    )

#tokens = [feat for feat in tokens if feat[1] not in STOP_WORDS] # Remove stop words
dfTokens=pd.DataFrame(words, columns=['word', 'lemma', 'shape', 'pos', 'tag', 'idx'])

# Clean
dfTokens = dfTokens.loc[dfTokens['pos'] != 'PUNCT'] # Remove punctuations
dfTokens = dfTokens.loc[dfTokens['pos'] != 'SPACE'] # Remove spaces
dfTokens = dfTokens.loc[dfTokens['pos'] != 'PROPN'] # Remove pronouns (stop word, or irrelevant for this NLP)
dfTokens = dfTokens.loc[dfTokens['pos'] != 'PRON'] # Remove pronouns (stop word, or irrelevant for this NLP)
dfTokens = dfTokens.loc[dfTokens['pos'] != 'ADP'] # Remove adjectives (stop word, or irrelevant for this NLP)
dfTokens = dfTokens.loc[dfTokens['pos'] != 'DET'] # Remove determiners (stop word, or irrelevant for this NLP)
dfTokens = dfTokens.loc[dfTokens['pos'] != 'CONJ'] # Remove determiners (stop word, or irrelevant for this NLP)
dfTokens = dfTokens.loc[dfTokens['pos'] != 'SCONJ'] # Remove determiners (stop word, or irrelevant for this NLP)
dfTokens # show relevant words


Unnamed: 0,word,lemma,shape,pos,tag,idx
0,ciudad,ciudad,XXXX,NOUN,NOUN__Gender=Masc|Number=Sing,0
10,últimos,último,xxxx,ADJ,ADJ__Gender=Masc|Number=Plur|NumType=Ord,39
11,diez,diez,xxxx,NUM,NUM__Number=Plur|NumType=Card,47
12,años,año,xxxx,NOUN,NOUN__Gender=Masc|Number=Plur,52
14,exportaciones,exportación,xxxx,NOUN,NOUN__Gender=Fem|Number=Plur,61
16,tequila,tequila,xxxx,NOUN,NOUN__Gender=Fem|Number=Sing,78
17,incrementaron,incrementar,xxxx,VERB,VERB__Mood=Ind|Number=Plur|Person=3|Tense=Past...,86
18,61.37,61.37,dd.dd,NOUN,NOUN__AdvType=Tim,100
19,%,%,%,SYM,SYM__NumForm=Digit|NumType=Frac,105
22,pasar,pasar,xxxx,VERB,VERB__VerbForm=Inf,111


# **Named Entity Recognition (NER)**

NER es probablemente el primer paso hacia la extracción de información que busca ubicar y clasificar las entidades nombradas en el texto en categorías predefinidas, como los nombres de personas, organizaciones, ubicaciones, expresiones de tiempos, cantidades, valores monetarios, porcentajes, etc. Se utiliza NER en muchos campos del Procesamiento del lenguaje natural (PNL), y puede ayudar a responder muchas preguntas del mundo real, como:

* ¿Qué empresas se mencionaron en el reportaje?
* ¿Se mencionaron los productos especificados en las quejas o revisiones?
* ¿El tweet contiene el nombre de una persona? ¿El tweet contiene la ubicación de esta persona?

Clasificaciones de SpaCy:

* **PERSON**	People, including fictional.
* **NORP**	Nationalities or religious or political groups.
* **FAC**	Buildings, airports, highways, bridges, etc.
* **ORG**	Companies, agencies, institutions, etc.
* **GPE**	Countries, cities, states.
* **LOC**	Non-GPE locations, mountain ranges, bodies of water.
* **PRODUCT**	Objects, vehicles, foods, etc. (Not services.)
* **EVENT**	Named hurricanes, battles, wars, sports events, etc.
* **WORK_OF_ART**	Titles of books, songs, etc.
* **LAW**	Named documents made into laws.
* **LANGUAGE**	Any named language.
* **DATE**	Absolute or relative dates or periods.
* **TIME**	Times smaller than a day.
* **PERCENT**	Percentage, including "%".
* **MONEY**	Monetary values, including unit.
* **QUANTITY**	Measurements, as of weight or distance.
* **ORDINAL**	"first", "second", etc.
* **CARDINAL**	Numerals that do not fall under another type.







In [0]:
#@title <-- Presiona este botón para calcular y mostrar las entidades reconocidas en el texto
# Computer NERs from doc: 

ners = []
for ent in doc.ents:
    ners.append(
        [
            ent.text.strip(),
            ent.label_,
            ent.lemma_.strip()
        ]
    )
    
dfNER = pd.DataFrame(ners, columns=['name', 'label', 'lemma_'])

# Clean
dfNER = dfNER.loc[dfNER['name'] != '']
#dfNER = dfNER.loc[dfNER['label'] == 'ORG']
dfNER

Unnamed: 0,name,label,lemma_
0,MÉXICO,ORG,MÉXICO
1,Expansión,LOC,Expansión
2,En los últimos diez años,MISC,En lo último diez año
3,Cámara Reguladora del Tequila,LOC,Cámara Reguladora del Tequila
4,CRT,ORG,CRT
5,Un aumento que,MISC,Un aumentar que
6,México,LOC,México
7,El principal mercado exterior,MISC,El principal mercar exterior
8,Estados Unidos,LOC,Estados Unidos
9,Alemania,LOC,Alemania


In [0]:
#@title <-- Presiona este botón para mostrar el conteo entidades por categoría
# Counts number of attributes in doc

labels = [x.label_ for x in doc.ents]
Counter(labels)

Counter({'LOC': 34, 'MISC': 24, 'ORG': 5, 'PER': 19})

In [0]:
#@title <-- Presiona este botón para mostrar las entidades que aparecen con mayor frecuencia
# Most used entities

items = [x.text for x in doc.ents]
items = [x.strip() for x in items]
items = [x for x in items if x != '']
Counter(items).most_common(5)



[('México', 6),
 ('Sauza', 3),
 ('Don Julio', 3),
 ('Reino Unido', 2),
 ('ISCAM', 2)]

# **Chunking**

Chunking consiste en identificar sustantivos en un texto y expresarlos junto con las palabras que le describen. Por ejemplo, en la frase: “Vivía en la casa de rejas verdes.” podemos encontrar los siguientes chunks:
- La casa de rejas verdes
- La casa
- Rejas verdes


In [0]:
#@title <-- Presiona este botón para mostrar los Chunks encontrados en el documento
# Document Chunks

# al parecer no funciona la clasificacion en español, 
# todos los chunks aparecen clasificados como 'NP'

chunking = []
for chunk in doc.noun_chunks:
    chunking.append(
        [
            chunk.text.strip(),
            chunk.label_,
            chunk.root.text,
            chunk.lemma_
        ]
    )
dfChunk = pd.DataFrame(chunking, columns = ['phrase', 'label', 'root', 'lemma'])
    #print(chunk.text, '|', chunk.label_, '|', chunk.root.text, '|', chunk.lemma_)
dfChunk 



Unnamed: 0,phrase,label,root,lemma
0,CIUDAD,NP,CIUDAD,CIUDAD
1,MÉXICO,NP,MÉXICO,MÉXICO
2,Expansión,NP,Expansión,Expansión
3,los últimos diez años,NP,años,lo último diez año
4,las exportaciones,NP,exportaciones,los exportación
5,tequila,NP,tequila,tequila
6,61.37,NP,61.37,61.37
7,millones,NP,millones,millón
8,litros,NP,litros,litro
9,2008,NP,2008,2008


# Dependency Parsing

Un analizador de dependencia analiza la estructura gramatical de una oración, estableciendo relaciones entre la palabra principal y las palabras que modifican a esa palabra principal. 

In [0]:
#@title <-- Presiona este botón para mostrar las dependencias encontradas en el documento

for token in doc:
    print("{0}/{1} <--{2}-- {3}/{4}".format(
        token.text, '|', token.tag_, '|', token.dep_, '|', token.head.text, '|', token.head.tag_))
 

CIUDAD/| <--NOUN__Gender=Masc|Number=Sing-- |/ROOT
DE/| <--ADP__AdpType=Prep-- |/case
MÉXICO/| <--PROPN___-- |/nmod
(/| <--PUNCT__PunctSide=Ini|PunctType=Brck-- |/punct
Expansión/| <--PROPN___-- |/appos
)/| <--PUNCT__PunctSide=Fin|PunctType=Brck-- |/punct
./| <--PUNCT__PunctType=Peri-- |/punct
-/| <--PUNCT__PunctType=Dash-- |/punct
En/| <--ADP__AdpType=Prep-- |/case
los/| <--DET__Definite=Def|Gender=Masc|Number=Plur|PronType=Art-- |/det
últimos/| <--ADJ__Gender=Masc|Number=Plur|NumType=Ord-- |/amod
diez/| <--NUM__Number=Plur|NumType=Card-- |/nummod
años/| <--NOUN__Gender=Masc|Number=Plur-- |/obl
las/| <--DET__Definite=Def|Gender=Fem|Number=Plur|PronType=Art-- |/det
exportaciones/| <--NOUN__Gender=Fem|Number=Plur-- |/nsubj
de/| <--ADP__AdpType=Prep-- |/case
tequila/| <--NOUN__Gender=Fem|Number=Sing-- |/nmod
incrementaron/| <--VERB__Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin-- |/ROOT
61.37/| <--NOUN__AdvType=Tim-- |/obj
%/| <--SYM__NumForm=Digit|NumType=Frac-- |/nmod
,/| <--PU