## Spacy

SpaCy es una libreria de procesamiento de lenguaje natural de Python gratuita y open source. Fue diseñada específicamente para la producción de algoritmos que puedan procesar grandes volúmenes de texto.

SpaCy ofrece modelos pre entrenados en varios idiomas, que se pueden instalar como modelos de python (ademas de la posibilidad de entrenar modelos propios).

La librería usa redes neuronales convolucionales para realizar part-of-speech tagging, dependency parsing, categorización de texto y reconocimiento de entidades(NER).

La gran ventaja de esta libreria es el buen soporte que tiene para idiomas diferentes al ingles. Existen diferentes modelos de diversos tamaños para que se ajusten mejor a la necesidad particular de cada caso.

### Glosario:

**Open Source:** El código fuente es accesible para cualquier persona que desee utilizarlo, modificarlo o contribuir a su desarrollo.

**Part-of-Speech Tagging** (Etiquetado de Partes del Discurso): Asigna a cada palabra en un texto una etiqueta que indica su función gramatical, como sustantivo, verbo, adjetivo, etc.

**Dependency Parsing** (Análisis de Dependencias): Determina las relaciones sintácticas entre las palabras en una oración.

**Categorización de Texto**: Clasificar fragmentos de texto en categorías específicas, como temas o sentimientos.

**Reconocimiento de Entidades** (NER): Identificación y clasificación de entidades nombradas en un texto, como nombres de personas, organizaciones, lugares, fechas, etc.

**Stop words**: Son palabras comunes, como pronombres, preposiciones y conjunciones, que se filtran o eliminan por su falta de significado informativo en el análisis de texto.


###instalacion


In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm
!python -m spacy download es_core_news_md

In [None]:
!pip install pandas

### Primeros pasos

In [3]:
import spacy
from spacy import displacy


nlp = spacy.load("es_core_news_md") #cargamos el modelo

In [4]:
import pandas as pd

# Procesar el texto de entrada utilizando SpaCy y almacenar el resultado en la variable 'doc'
doc = nlp("Ada Lovelace creó el primer algoritmo informático")

d=[] # Crear una lista vacía 'd' para almacenar información sobre cada token en el texto procesado
for token in doc:
    # Para cada token, extraer varias propiedades y almacenarlas en una lista
    d.append([token.text,     # El texto original del token
              token.lemma_,   # El lema (forma base) de la palabra
              token.pos_,     # La etiqueta de parte del discurso (POS) de la palabra (p. ej., sustantivo, verbo, etc.)
              token.dep_,     # La relación de dependencia sintáctica con la cabeza de la frase
              token.shape_,   # La forma de la palabra (patrón de mayúsculas y puntuación)
              token.is_alpha, # Booleano que indica si el token consiste en caracteres alfabéticos
              token.is_stop]) # Booleano que indica si el token es una stop word.

df = pd.DataFrame(data=d, columns=["Text","Lemma","POS","DEP","shape","is_alpha","is_stop"])
df

Unnamed: 0,Text,Lemma,POS,DEP,shape,is_alpha,is_stop
0,Ada,Ada,PROPN,nsubj,Xxx,True,False
1,Lovelace,Lovelace,PROPN,flat,Xxxxx,True,False
2,creó,crear,VERB,ROOT,xxxx,True,False
3,el,el,DET,det,xx,True,True
4,primer,primero,ADJ,amod,xxxx,True,True
5,algoritmo,algoritmo,NOUN,obj,xxxx,True,False
6,informático,informático,ADJ,amod,xxxx,True,False


### Dependencias

ROOT (Raíz): Este valor indica que el token es la raíz de la estructura sintáctica de la oración, es decir, no depende de ninguna otra palabra en la oración. Generalmente, un verbo principal en una oración será la raíz.

nsubj (Sujeto Nominal): Se utiliza para etiquetar el sujeto nominal de una oración, que es la palabra o grupo de palabras que realiza la acción del verbo.

nsubjpass (Sujeto Pasivo Nominal): Indica el sujeto de una oración pasiva. En una construcción pasiva, el sujeto realiza la acción de manera pasiva y es el receptor de la acción.

dobj (Objeto Directo): Etiqueta el objeto directo de un verbo, que es el receptor de la acción del verbo sin una preposición.

pobj (Objeto de Preposición): Indica un sustantivo o pronombre que es el objeto de una preposición en la oración.

amod (Modificador de Adjetivo): Se utiliza para etiquetar un modificador que describe o califica un sustantivo.

conj (Conjunción): Etiqueta elementos de una lista o serie que están conectados por una conjunción.

advmod (Modificador de Adverbio): Indica un modificador que describe o califica un adverbio.

prep (Preposición): Indica una relación de dependencia entre un sustantivo y una preposición.

cc (Conector Coordinante): Etiqueta una conjunción coordinante que conecta palabras o frases de igual importancia.

In [None]:
doc = nlp("Ada Lovelace creó el primer algoritmo informático")
displacy.render(doc, style="dep", jupyter=True)

### Morfologia

In [None]:
# Cargar el modelo de SpaCy para el español
nlp = spacy.load("es_core_news_sm")

# Imprimir los componentes del pipeline de procesamiento de SpaCy
print("Pipeline:", nlp.pipe_names)

# Procesar un texto de ejemplo utilizando el modelo de SpaCy
doc = nlp("Yo estaba leyendo el diario")

# Acceder al primer token (en este caso, "Yo") en el documento procesado
token = doc[0]

# Imprimir las características morfológicas (morph) del token
print(token.morph)  # 'Case=Nom|Number=Sing|Person=1|PronType=Prs'

# Imprimir la parte del discurso (POS) del token
print(token.pos_)

Pipeline: ['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
Case=Nom|Number=Sing|Person=1|PronType=Prs
PRON


**Case=Nom:** El caso gramatical del token es nominativo ("Nom"). En español, el caso nominativo se utiliza para sujetos y complementos directos de un verbo.

**Number=Sing:** Es de numero singular ("Sing").

**Person=1:** Esta en primera persona.

**PronType=Prs:** Tipo de pronombre al que pertenece el token "Prs" significa que el token es un pronombre personal.

### Entidades

In [5]:
text = """
Margaret Hamilton nació en Paoli, Indiana el dia 17 de agosto de 1936. Margaret es una científica computacional, matemática e
ingeniera de Software estadounidense.
Fue directora de la División de Ingeniería de Software del Laboratorio de Instrumentación del MIT,
donde con su equipo desarrolló el software de navegación "on-board" para el Programa Espacial Apolo.
Fue fundadora, en 1976, de la empresa Higher Order Software.
En 1986, se convirtió en la fundadora y CEO de Hamilton Technologies, en Cambridge, Massachusetts.
"""

doc = nlp(text)
# docs = [nlp(text) for text in texts] si tengo una lista de textos

displacy.render(doc, style="ent", jupyter=True)

### Matching

Lemmatizacion y Matching
Matcher permite definir patrones de búsqueda, encontrando todas las instancias de palabras, sin importar su conjugación, utilizando su forma en infinitivo.

In [None]:
from spacy.matcher import Matcher
from spacy.tokens import Span

text = """
Margaret Hamilton nació en Paoli, Indiana el dia 17 de agosto de 1936. Margaret es una científica computacional, matemática e
ingeniera de Software estadounidense.
Fue directora de la División de Ingeniería de Software del Laboratorio de Instrumentación del MIT,
donde con su equipo desarrolló el software de navegación "on-board" para el Programa Espacial Apolo.
Fue fundadora, en 1976, de la empresa Higher Order Software.
En 1986, se convirtió en la fundadora y CEO de Hamilton Technologies, en Cambridge, Massachusetts.
"""

doc = nlp(text)

matcher = Matcher(nlp.vocab)

#defino los patrones de busqueda
pattern_1 = [{
  "LOWER": "software"
}]

pattern_2 = [{
  "LEMMA": "convertir",
}]

# Agrego el patron de busqueda que quiero aplicar
matcher.add("Software", [pattern_1])
matcher.add("Accion", [pattern_2])

doc = nlp(text)
matches = matcher(doc)

doc.ents = [] #saco las entidades existentes para solo ver los resultados del matcher

for match_id, start, end in matches:
    span = Span(doc, start, end, label=match_id)
    doc.ents = list(doc.ents) + [span]

colors = {
    "Software": "#6ab9eb", #celeste
    "Accion": "#5d945f" #verde
}

options = {"colors": colors}

displacy.render(doc, style="ent", options=options, jupyter=True)


### Resumenes


In [None]:
import spacy
from spacy.lang.es.stop_words import STOP_WORDS  # Lista de stop words en español
from string import punctuation  # Lista de signos de puntuación
from collections import Counter  # Para contar palabras
from heapq import nlargest  # Para seleccionar las oraciones más importantes

# Cargar el modelo de SpaCy para el español
nlp = spacy.load('es_core_news_sm')

# Definir un artículo de noticia y un título
noticia = """
En el inicio del fin de semana extralargo, miles de visitantes llegaron a la ciudad para disfrutar de unas minivacaciones antes del verano. Algunos arribaron a bordo de sus autos, otros eligieron el transporte público, y también algunos ejemplares llegaron por mar, como las ballenas que ayer a la mañana deleitaron a todos los que se encontraban frente al mar y pudieron divisarlas.

Con un cielo despejado, y una máxima que alcanzó los 20°, los cétaceos se mostraron frente a las costas marplatenses, específicamente en la zona céntrica comprendida entre Cabo Corrientes y la Bristol.

Si bien en los últimos meses se pudieron visualizar, a lo largo de toda la costa, los puntos terrestres donde son más identificables oscilan entre Cabos Corrientes y la bahía de Varese. Claro que, de acuerdo al comportamiento de los cetáceos, los marplatenses también las pudieron ver de cerca en el sector norte de la ciudad e incluso en el otro extremo, como Punta Canteras y Punta Mogotes.

Los navegantes son los más afortunados, ya que muchas veces se las cruzaron en sus travesías, incluso varios kilómetros mar adentro, tal como quedó demostrado en varias oportunidades a través de las publicaciones en diferentes redes sociales o del trabajo del dron.

Históricamente, los meses que las ballenas solían pasar frente a las costas locales eran agosto y septiembre, aunque en los últimos años ese período se fue extendiendo. Su paso por Mar del Plata se debe, según los especialistas, a la travesía de emprenden desde el sur de Brasil para llegar hasta Puerto Madryn. En la mayoría de los casos, se trata de ballenas “franca austral”, un animal protegido y declarado monumento natural de la Argentina.
"""

titulo = "las ballenas brindaron un show a metros de la costa"

# Procesar el artículo
doc = nlp(noticia)

# Calcular el número de oraciones para el resumen
oraciones = len(list(doc.sents))
num_oraciones = int(oraciones * 0.3)  # Seleccionar el 30% de las oraciones

keyword = []
stopwords = list(STOP_WORDS)
pos_tag = ['PROPN', 'ADJ', 'NOUN', 'VERB']  # Etiquetas de partes del discurso relevantes

# Recorrer cada token en el artículo de noticia
for token in doc:
    # Comprobar si el token es relevante (no es stop word ni un signo de puntuación) y tiene una etiqueta de parte del discurso relevante
    relevante = token.text not in stopwords and token.text not in punctuation
    if relevante and token.pos_ in pos_tag:
        keyword.append(token.text) #lo agrego a las palabras clave

# Calcular la frecuencia de palabras clave
p_frec = Counter(keyword)
max_frec = Counter(keyword).most_common(1)[0][1]
for word in p_frec.keys():
    p_frec[word] = (p_frec[word] / max_frec)

# Calcular la importancia de cada oración en función de la cantidad de palabras clave que tiene

imp_oracion = {}
for sent in doc.sents:
    for word in sent:
        if word.text in p_frec.keys():
            if sent in imp_oracion.keys():
                imp_oracion[sent] += p_frec[word.text]
            else:
                imp_oracion[sent] = p_frec[word.text]

# Seleccionar las oraciones más relevantes para el resumen
o_resumidas = nlargest(num_oraciones, imp_oracion, key=imp_oracion.get)

# Crear una lista de las oraciones más relevantes en el resumen
final = [w.text for w in o_resumidas]

# Mostrar el título del artículo (en negrita) y el resumen del artículo
print(f"\033[1m{titulo}\033[0m\n")
print(' '.join(final))

[1mlas ballenas brindaron un show a metros de la costa[0m

Algunos arribaron a bordo de sus autos, otros eligieron el transporte público, y también algunos ejemplares llegaron por mar, como las ballenas que ayer a la mañana deleitaron a todos los que se encontraban frente al mar y pudieron divisarlas.

 Con un cielo despejado, y una máxima que alcanzó los 20°, los cétaceos se mostraron frente a las costas marplatenses, específicamente en la zona céntrica comprendida entre Cabo Corrientes y la Bristol.

 Históricamente, los meses que las ballenas solían pasar frente a las costas locales eran agosto y septiembre, aunque en los últimos años ese período se fue extendiendo.
